Основы анализа данных в Python: различия между версиями
Перейти к навигации
Перейти к поиску
(→Проект) |
|||
(не показано 13 промежуточных версий этого же участника) | |||
Строка 40: | Строка 40: | ||
* Данные для работы: можно скопировать [https://vincentarelbundock.github.io/Rdatasets/csv/carData/Salaries.csv ссылку] или скачать файл [https://www.dropbox.com/s/nx7bi0mkopteqj3/Salaries.csv?dl=0 Salaries.csv], [https://vincentarelbundock.github.io/Rdatasets/doc/carData/Salaries.html описание] данных. | * Данные для работы: можно скопировать [https://vincentarelbundock.github.io/Rdatasets/csv/carData/Salaries.csv ссылку] или скачать файл [https://www.dropbox.com/s/nx7bi0mkopteqj3/Salaries.csv?dl=0 Salaries.csv], [https://vincentarelbundock.github.io/Rdatasets/doc/carData/Salaries.html описание] данных. | ||
− | * Парная и множественная линейная регрессия со statsmodels (читать, скачать). | + | * Парная и множественная линейная регрессия со statsmodels ([https://nbviewer.org/github/allatambov/PyDataAnalysis/blob/main/seminar04-OLS.ipynb читать], [https://www.dropbox.com/s/1woewhhvq81wnc0/seminar04-OLS.ipynb?dl=0 скачать]). |
+ | |||
+ | === Неделя 5. Линейная регрессия с эффектами взаимодействия. === | ||
+ | |||
+ | * Данные для работы: можно скопировать [https://vincentarelbundock.github.io/Rdatasets/csv/carData/Salaries.csv ссылку] или скачать файл [https://www.dropbox.com/s/nx7bi0mkopteqj3/Salaries.csv?dl=0 Salaries.csv], [https://vincentarelbundock.github.io/Rdatasets/doc/carData/Salaries.html описание] данных. | ||
+ | |||
+ | * Линейная регрессия с эффектами взаимодействия ([https://nbviewer.org/github/allatambov/PyDataAnalysis/blob/main/seminar05-OLS-interactions.ipynb читать], [https://www.dropbox.com/s/kx16k8lzvx4u736/seminar05-OLS-interactions.ipynb?dl=0 скачать]). | ||
+ | |||
+ | * Сырой ipynb-файл с занятия, с влиятельными наблюдениями ([https://github.com/allatambov/PyDataAnalysis/blob/main/OLS-contd.ipynb читать], [https://www.dropbox.com/s/dy9gixolm5gj3mt/OLS-contd.ipynb?dl=0 скачать]). | ||
+ | |||
+ | Дополнительно: | ||
+ | |||
+ | * Гетероскедастичность и влиятельные наблюдения (TBA). | ||
+ | |||
+ | === Неделя 6. Логистическая регрессия. === | ||
+ | |||
+ | * Данные для работы: можно скопировать [https://raw.githubusercontent.com/allatambov/PyDataAnalysis/main/HR.csv ссылку] или скачать файл [https://www.dropbox.com/s/emgmeig66w150e1/HR.csv?dl=0 HR.csv], данных. | ||
+ | |||
+ | * Сырой ipynb-файл с занятия ([https://github.com/allatambov/PyDataAnalysis/blob/main/logit-raw.ipynb читать], [https://www.dropbox.com/s/k4iy1996x681i7c/logit-raw.ipynb?dl=0 скачать]). | ||
== Домашние задания == | == Домашние задания == | ||
Строка 54: | Строка 72: | ||
| [https://github.com/allatambov/PyDataAnalysis/blob/main/pydata-hw03.ipynb Домашнее задание 3] || [https://www.dropbox.com/s/1xqge3y53rgua2i/pydata-hw03.ipynb?dl=0 ipynb] [https://www.dropbox.com/s/ipuixw0554p1owe/canada.csv?dl=0 canada.csv] || 07.10 23:59 || [https://www.dropbox.com/request/aO7L3I3TEO7uMkvILnDo ссылка] | | [https://github.com/allatambov/PyDataAnalysis/blob/main/pydata-hw03.ipynb Домашнее задание 3] || [https://www.dropbox.com/s/1xqge3y53rgua2i/pydata-hw03.ipynb?dl=0 ipynb] [https://www.dropbox.com/s/ipuixw0554p1owe/canada.csv?dl=0 canada.csv] || 07.10 23:59 || [https://www.dropbox.com/request/aO7L3I3TEO7uMkvILnDo ссылка] | ||
|- | |- | ||
− | | Домашнее задание 4 || | + | | [https://github.com/allatambov/PyDataAnalysis/blob/main/pydata-hw04.ipynb Домашнее задание 4] || [https://www.dropbox.com/s/d5vzoc9yagpsqyx/pydata-hw04.ipynb?dl=0 ipynb] [https://www.dropbox.com/s/mznau73cbr04vf0/research.csv?dl=0 research.csv] [https://www.dropbox.com/s/1zwnig2n463m68z/nyc_squirrels.csv?dl=0 nyc_squirrels.csv] || 13.10 23:59 || [https://www.dropbox.com/request/JWQaBV9NM6Yf8jtjcTJv ссылка] |
|- | |- | ||
− | | Домашнее задание 5 || | + | | [https://github.com/allatambov/PyDataAnalysis/blob/main/pydata-hw05.ipynb Домашнее задание 5] || [https://www.dropbox.com/s/kueaompuy6xnwn4/pydata-hw05.ipynb?dl=0 ipynb] [https://www.dropbox.com/s/mznau73cbr04vf0/research.csv?dl=0 research.csv] || 18.10 23:59 || [https://www.dropbox.com/request/kkUA7EkULxqXRwFgAXL9 ссылка] |
|- | |- | ||
− | | Домашнее задание 6 || | + | | [https://github.com/allatambov/PyDataAnalysis/blob/main/pydata-hw06.ipynb Домашнее задание 6] || [https://www.dropbox.com/s/qbpa93vu2ku09ww/pydata-hw06.ipynb?dl=0 ipynb] [https://www.dropbox.com/s/a1lvgaa2es3r27y/spanish_data.csv?dl=0 spanish_data.csv] || 23.10 15:00|| [https://www.dropbox.com/request/KaWGGdFtCkpjBSJ4yH5I ссылка] |
|} | |} | ||
+ | |||
+ | == Проект == | ||
+ | |||
+ | * [https://www.dropbox.com/s/99sqz1rxov2moy2/pyproj.pdf?dl=0 Задание], выполненное задание нужно загрузить на Dropbox по [https://www.dropbox.com/request/ZAlUBnkP06MACiSZUPTA ссылке]. | ||
+ | * Два дедлайна на выбор: 23 октября 23:59 и 25 октября 23:59, при сдаче до первого дедлайна можно получить оценку до экзамена. |
Текущая версия на 22:32, 21 октября 2022
Дорогие студенты!
Это страница курса по выбору «Основы анализа данных в Python», читаемого на программе «Политология» 3 курса бакалавриата в 1 модуле 2022-2023 учебного года.
Лекции читает: Стукал Денис Константинович.
Семинары ведут: Тамбовцева Алла Андреевна, Беленков Вадим Евгеньевич (семинары 1-2).
Правила игры
- Формула оценки: 0.25 * Экзамен + 0.08 * ДЗ1 + 0.08 * ДЗ2 + 0.08 * ДЗ3 + 0.08 * ДЗ4 + 0.08 * ДЗ5 + 0.1 * ДЗ6 + 0.25 * Проект.
- Программа курса.
- Домашние задания, начиная с третьей недели курса, сдаются через запросы Dropbox.
Материалы практических занятий
Недели 1-2. Предварительная обработка данных. Введение в анализ данных.
- Файл wiki.csv, файл с описанием данных.
- Доверительные интервалы, проверка гипотез, коэффициенты корреляции (читать, скачать).
Дополнительно:
- NumPy arrays, Pandas Series, Pandas DataFrame (читать).
- Работа с датафреймами pandas: часть 1 , часть 2, часть 3, файл с данными firtree.csv.
- Официальная документация модуля stats из библиотеки scipy.
Неделя 3. Визуализация данных с библиотекой matplotlib.
Дополнительно:
- Визуализация данных с matplotlib: более продвинутые примеры (TBA).
- Форматы цветов в matplotlib, палитра цветов от Google.
- Типы маркеров и линий в matplotlib.
- Официальная документация: hist(), plot(), scatter_matrix(), bar().
Неделя 4. Линейная регрессия с библиотекой statsmodels.
- Данные для работы: можно скопировать ссылку или скачать файл Salaries.csv, описание данных.
- Парная и множественная линейная регрессия со statsmodels (читать, скачать).
Неделя 5. Линейная регрессия с эффектами взаимодействия.
- Данные для работы: можно скопировать ссылку или скачать файл Salaries.csv, описание данных.
Дополнительно:
- Гетероскедастичность и влиятельные наблюдения (TBA).
Неделя 6. Логистическая регрессия.
Домашние задания
Домашние задания 1-2 сдавались через SmartLMS.
Домашнее задание | Файлы | Дедлайн | Куда сдавать |
---|---|---|---|
Домашнее задание 2а | ipynb responses_py.csv life_expect.csv | 04.10 23:59 | ссылка |
Домашнее задание 3 | ipynb canada.csv | 07.10 23:59 | ссылка |
Домашнее задание 4 | ipynb research.csv nyc_squirrels.csv | 13.10 23:59 | ссылка |
Домашнее задание 5 | ipynb research.csv | 18.10 23:59 | ссылка |
Домашнее задание 6 | ipynb spanish_data.csv | 23.10 15:00 | ссылка |