Основы анализа данных в Python: различия между версиями

Материал из MathINFO
Перейти к навигации Перейти к поиску
(Новая страница: «Дорогие студенты! Это страница курса по выбору '''«Основы анализа данных в Python»''', читаем...»)
 
 
(не показано 19 промежуточных версий этого же участника)
Строка 14: Строка 14:
 
== Материалы практических занятий ==  
 
== Материалы практических занятий ==  
  
=== Недели 1-2. Предварительная обработка данных. Введение в анализ данных ===
+
=== Недели 1-2. Предварительная обработка данных. Введение в анализ данных. ===
  
 
* Файл [https://www.dropbox.com/s/9imk6146ye0mxio/wiki.csv?dl=0 wiki.csv], [https://github.com/allatambov/PyDataAnalysis/blob/main/wiki_codebook.pdf файл] с описанием данных.
 
* Файл [https://www.dropbox.com/s/9imk6146ye0mxio/wiki.csv?dl=0 wiki.csv], [https://github.com/allatambov/PyDataAnalysis/blob/main/wiki_codebook.pdf файл] с описанием данных.
Строка 23: Строка 23:
 
* NumPy arrays, Pandas Series, Pandas DataFrame ([https://nbviewer.jupyter.org/github/allatambov/allatambov.github.io/blob/master/icef/seminars/arrays-pandas.ipynb читать]).
 
* NumPy arrays, Pandas Series, Pandas DataFrame ([https://nbviewer.jupyter.org/github/allatambov/allatambov.github.io/blob/master/icef/seminars/arrays-pandas.ipynb читать]).
 
* Работа с датафреймами pandas: [https://nbviewer.jupyter.org/github/allatambov/allatambov.github.io/blob/master/icef/seminars/pandas-01.ipynb часть 1 ], [https://nbviewer.jupyter.org/github/allatambov/allatambov.github.io/blob/master/icef/seminars/pandas-02.ipynb часть 2], [https://nbviewer.jupyter.org/github/allatambov/allatambov.github.io/blob/master/icef/seminars/pandas-03.ipynb часть 3], файл с данными [https://allatambov.github.io/pydj/seminars/firtree.csv firtree.csv].
 
* Работа с датафреймами pandas: [https://nbviewer.jupyter.org/github/allatambov/allatambov.github.io/blob/master/icef/seminars/pandas-01.ipynb часть 1 ], [https://nbviewer.jupyter.org/github/allatambov/allatambov.github.io/blob/master/icef/seminars/pandas-02.ipynb часть 2], [https://nbviewer.jupyter.org/github/allatambov/allatambov.github.io/blob/master/icef/seminars/pandas-03.ipynb часть 3], файл с данными [https://allatambov.github.io/pydj/seminars/firtree.csv firtree.csv].
 +
* Официальная [https://docs.scipy.org/doc/scipy/reference/stats.html документация] модуля stats из библиотеки scipy.
  
=== Неделя 3. Визуализация данных с библиотекой matplotlib ===
+
=== Неделя 3. Визуализация данных с библиотекой matplotlib. ===
  
 
* Файл [https://www.dropbox.com/s/9imk6146ye0mxio/wiki.csv?dl=0 wiki.csv], [https://github.com/allatambov/PyDataAnalysis/blob/main/wiki_codebook.pdf файл] с описанием данных.
 
* Файл [https://www.dropbox.com/s/9imk6146ye0mxio/wiki.csv?dl=0 wiki.csv], [https://github.com/allatambov/PyDataAnalysis/blob/main/wiki_codebook.pdf файл] с описанием данных.
Строка 31: Строка 32:
 
Дополнительно:
 
Дополнительно:
  
 +
* Визуализация данных с matplotlib: более продвинутые примеры (TBA).
 
* [https://matplotlib.org/stable/tutorials/colors/colors.html Форматы] цветов в matplotlib, [https://g.co/kgs/fms1DF палитра] цветов от Google.
 
* [https://matplotlib.org/stable/tutorials/colors/colors.html Форматы] цветов в matplotlib, [https://g.co/kgs/fms1DF палитра] цветов от Google.
 
* Типы [https://matplotlib.org/stable/api/markers_api.html маркеров] и [https://matplotlib.org/stable/gallery/lines_bars_and_markers/linestyles.html линий] в matplotlib.
 
* Типы [https://matplotlib.org/stable/api/markers_api.html маркеров] и [https://matplotlib.org/stable/gallery/lines_bars_and_markers/linestyles.html линий] в matplotlib.
 +
* Официальная документация: [https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.hist.html hist()], [https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.plot.html plot()], [https://pandas.pydata.org/docs/reference/api/pandas.plotting.scatter_matrix.html scatter_matrix()], [https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.bar.html bar()].
 +
 +
=== Неделя 4. Линейная регрессия с библиотекой statsmodels.  ===
 +
 +
* Данные для работы: можно скопировать [https://vincentarelbundock.github.io/Rdatasets/csv/carData/Salaries.csv ссылку] или скачать файл [https://www.dropbox.com/s/nx7bi0mkopteqj3/Salaries.csv?dl=0 Salaries.csv], [https://vincentarelbundock.github.io/Rdatasets/doc/carData/Salaries.html описание] данных.
 +
* Парная и множественная линейная регрессия со statsmodels ([https://nbviewer.org/github/allatambov/PyDataAnalysis/blob/main/seminar04-OLS.ipynb читать], [https://www.dropbox.com/s/1woewhhvq81wnc0/seminar04-OLS.ipynb?dl=0 скачать]).
 +
 +
=== Неделя 5. Линейная регрессия с эффектами взаимодействия.  ===
 +
 +
* Данные для работы: можно скопировать [https://vincentarelbundock.github.io/Rdatasets/csv/carData/Salaries.csv ссылку] или скачать файл [https://www.dropbox.com/s/nx7bi0mkopteqj3/Salaries.csv?dl=0 Salaries.csv], [https://vincentarelbundock.github.io/Rdatasets/doc/carData/Salaries.html описание] данных.
 +
 +
* Линейная регрессия с эффектами взаимодействия ([https://nbviewer.org/github/allatambov/PyDataAnalysis/blob/main/seminar05-OLS-interactions.ipynb читать], [https://www.dropbox.com/s/kx16k8lzvx4u736/seminar05-OLS-interactions.ipynb?dl=0 скачать]).
 +
 +
* Сырой ipynb-файл с занятия, с влиятельными наблюдениями ([https://github.com/allatambov/PyDataAnalysis/blob/main/OLS-contd.ipynb читать], [https://www.dropbox.com/s/dy9gixolm5gj3mt/OLS-contd.ipynb?dl=0 скачать]).
 +
 +
Дополнительно:
 +
 +
* Гетероскедастичность и влиятельные наблюдения (TBA).
 +
 +
=== Неделя 6. Логистическая регрессия.  ===
 +
 +
* Данные для работы: можно скопировать [https://raw.githubusercontent.com/allatambov/PyDataAnalysis/main/HR.csv ссылку] или скачать файл [https://www.dropbox.com/s/emgmeig66w150e1/HR.csv?dl=0 HR.csv], данных.
 +
 +
* Сырой ipynb-файл с занятия ([https://github.com/allatambov/PyDataAnalysis/blob/main/logit-raw.ipynb читать], [https://www.dropbox.com/s/k4iy1996x681i7c/logit-raw.ipynb?dl=0 скачать]).
 +
 +
== Домашние задания ==
 +
 +
Домашние задания 1-2 сдавались через SmartLMS.
 +
 +
{| class="wikitable"
 +
|-
 +
! Домашнее задание !! Файлы !! Дедлайн !! Куда сдавать
 +
|-
 +
| [https://nbviewer.org/github/allatambov/PyDataAnalysis/blob/main/pydata-hw02a.ipynb Домашнее задание 2а] || [https://www.dropbox.com/s/mcytt75gioo7noo/pydata-hw02a.ipynb?dl=0 ipynb] [https://www.dropbox.com/s/z65v6i5no2maupq/responses_py.csv?dl=0 responses_py.csv] [https://www.dropbox.com/s/ecv0285f11ao35g/life_expect.csv?dl=0 life_expect.csv] || 04.10 23:59 || [https://www.dropbox.com/request/Y7SXyIxj1ofuPo9QXtTg ссылка]
 +
|-
 +
| [https://github.com/allatambov/PyDataAnalysis/blob/main/pydata-hw03.ipynb Домашнее задание 3] || [https://www.dropbox.com/s/1xqge3y53rgua2i/pydata-hw03.ipynb?dl=0 ipynb] [https://www.dropbox.com/s/ipuixw0554p1owe/canada.csv?dl=0 canada.csv] || 07.10 23:59 || [https://www.dropbox.com/request/aO7L3I3TEO7uMkvILnDo ссылка]
 +
|-
 +
| [https://github.com/allatambov/PyDataAnalysis/blob/main/pydata-hw04.ipynb Домашнее задание 4] || [https://www.dropbox.com/s/d5vzoc9yagpsqyx/pydata-hw04.ipynb?dl=0 ipynb] [https://www.dropbox.com/s/mznau73cbr04vf0/research.csv?dl=0 research.csv] [https://www.dropbox.com/s/1zwnig2n463m68z/nyc_squirrels.csv?dl=0 nyc_squirrels.csv] || 13.10 23:59 || [https://www.dropbox.com/request/JWQaBV9NM6Yf8jtjcTJv ссылка]
 +
|-
 +
| [https://github.com/allatambov/PyDataAnalysis/blob/main/pydata-hw05.ipynb Домашнее задание 5] || [https://www.dropbox.com/s/kueaompuy6xnwn4/pydata-hw05.ipynb?dl=0 ipynb] [https://www.dropbox.com/s/mznau73cbr04vf0/research.csv?dl=0 research.csv] || 18.10 23:59 || [https://www.dropbox.com/request/kkUA7EkULxqXRwFgAXL9 ссылка]
 +
|-
 +
| [https://github.com/allatambov/PyDataAnalysis/blob/main/pydata-hw06.ipynb Домашнее задание 6] || [https://www.dropbox.com/s/qbpa93vu2ku09ww/pydata-hw06.ipynb?dl=0 ipynb] [https://www.dropbox.com/s/a1lvgaa2es3r27y/spanish_data.csv?dl=0 spanish_data.csv] || 23.10 15:00|| [https://www.dropbox.com/request/KaWGGdFtCkpjBSJ4yH5I ссылка]
 +
|}
 +
 +
== Проект ==
 +
 +
* [https://www.dropbox.com/s/99sqz1rxov2moy2/pyproj.pdf?dl=0 Задание], выполненное задание нужно загрузить на Dropbox по [https://www.dropbox.com/request/ZAlUBnkP06MACiSZUPTA ссылке].
 +
* Два дедлайна на выбор: 23 октября 23:59 и 25 октября 23:59, при сдаче до первого дедлайна можно получить оценку до экзамена.

Текущая версия на 22:32, 21 октября 2022

Дорогие студенты!

Это страница курса по выбору «Основы анализа данных в Python», читаемого на программе «Политология» 3 курса бакалавриата в 1 модуле 2022-2023 учебного года.

Лекции читает: Стукал Денис Константинович.
Семинары ведут: Тамбовцева Алла Андреевна, Беленков Вадим Евгеньевич (семинары 1-2).

Правила игры

  • Формула оценки: 0.25 * Экзамен + 0.08 * ДЗ1 + 0.08 * ДЗ2 + 0.08 * ДЗ3 + 0.08 * ДЗ4 + 0.08 * ДЗ5 + 0.1 * ДЗ6 + 0.25 * Проект.
  • Программа курса.
  • Домашние задания, начиная с третьей недели курса, сдаются через запросы Dropbox.

Материалы практических занятий

Недели 1-2. Предварительная обработка данных. Введение в анализ данных.

  • Файл wiki.csv, файл с описанием данных.
  • Доверительные интервалы, проверка гипотез, коэффициенты корреляции (читать, скачать).

Дополнительно:

Неделя 3. Визуализация данных с библиотекой matplotlib.

Дополнительно:

Неделя 4. Линейная регрессия с библиотекой statsmodels.

Неделя 5. Линейная регрессия с эффектами взаимодействия.

Дополнительно:

  • Гетероскедастичность и влиятельные наблюдения (TBA).

Неделя 6. Логистическая регрессия.

  • Данные для работы: можно скопировать ссылку или скачать файл HR.csv, данных.

Домашние задания

Домашние задания 1-2 сдавались через SmartLMS.

Домашнее задание Файлы Дедлайн Куда сдавать
Домашнее задание 2а ipynb responses_py.csv life_expect.csv 04.10 23:59 ссылка
Домашнее задание 3 ipynb canada.csv 07.10 23:59 ссылка
Домашнее задание 4 ipynb research.csv nyc_squirrels.csv 13.10 23:59 ссылка
Домашнее задание 5 ipynb research.csv 18.10 23:59 ссылка
Домашнее задание 6 ipynb spanish_data.csv 23.10 15:00 ссылка

Проект

  • Задание, выполненное задание нужно загрузить на Dropbox по ссылке.
  • Два дедлайна на выбор: 23 октября 23:59 и 25 октября 23:59, при сдаче до первого дедлайна можно получить оценку до экзамена.