НИС Основы анализа данных в Python
Дорогие студенты!
Это страница курса НИС «Основы анализа данных в Python», читаемого в 3 модуле 2024-2025 учебного года на ОП «Политология». 
Этот курс является продолжением обязательного курса «Основы анализа данных в Python».
Преподаватель: Тамбовцева Алла Андреевна.
Содержание
- 1 Правила игры
 - 2 Программное обеспечение
 - 3 Материалы курса
- 3.1 Неделя 1. Группировка с pandas. Критерий согласия хи-квадрат
 - 3.2 Неделя 2. Качественные данные и критерий согласия хи-квадрат
 - 3.3 Неделя 3. Диаграммы рассеивания и коэффициент корреляции Пирсона
 - 3.4 Неделя 4. Линейная регрессия и метрики качества
 - 3.5 Неделя 5. Задачи машинного обучения
 - 3.6 Неделя 6. Логистическая регрессия
 
 - 4 Домашнее задание
 - 5 К независимому экзамену
 - 6 Экзамен
 
Правила игры
- Программа курса, организационная презентация.
 - Формула оценки: 0.15 * Тесты + 0.2 * Практикум + 0.2 * ДЗ + 0.45 * Экзамен.
 - Цель курса – подготовка к независимому экзамену по анализу данных. Демоверсию экзамена и тренировочные варианты 
можно найти здесь в разделе Материалы для подготовки – Анализ данных. Базовый уровень (запись на курс в SmartLMS). 
Программное обеспечение
В рамках этого курса мы будем использовать язык Python и среду разработки Jupyter Notebook. 
Также есть возможность работать в аналоге Jupyter Notebook онлайн, используя ресурс Google Colab 
(для создания и редактирования файлов нужен аккаунт Gmail). 
NB. На независимом экзамене не разрешается использовать облачные ресурсы, включая Google Colab.
Если у вас ничего не установлено или вы успели «удалить весь Python», перед занятиями необходимо 
установить дистрибутив Anaconda (скачать можно здесь, регистрацию можно пропустить), который 
включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации 
данных, а также среду для работы Jupyter Notebook. Материалы по работе в Jupyter Notebook и Colab:
- Запуск Jupyter без Anaconda Navigator (инструкция).
 - Работа в Jupyter Notebook (видео), отличия Google Colab от Jupyter (видео).
 
Материалы курса
Неделя 1. Группировка с pandas. Критерий согласия хи-квадрат
- Практикум 1. Группировка с pandas (ipynb), данные для работы (happiness_b.csv).
 - Тренировочный вариант НЭ (ссылка, доступен по паролю).
 - Меры связи в качественной шкале: критерий хи-квадрат (слайды).
 
Неделя 2. Качественные данные и критерий согласия хи-квадрат
- Практикум 2. Критерий согласия хи-квадрат, обработка текстовых данных и дат (ipynb), решения (ipynb).
 - Данные для практикума 2 (CSV-файлы).
 
Дополнительно:
- Статья про регулярные выражения в Python и модуль re.
 - Краткий обзор регулярных выражений и примеры использования их в pandas (ipynb).
 - Форматирование дат – раздел общей документации по модулю datetime (в pandas свой похожий модуль).
 
Неделя 3. Диаграммы рассеивания и коэффициент корреляции Пирсона
- Напоминание про диаграммы рассеивания и коэффициент Пирсона (слайды).
 - Практикум 3. Коэффициент корреляции Пирсона (ipynb), данные (happiness_b.csv), решения (ipynb).
 
Дополнительно:
- Палитры в matplotlib: документация.
 
Неделя 4. Линейная регрессия и метрики качества
- Краткая теория по линейной регрессии и метрикам качества (слайды)
 - Практикум 4. Линейная регрессия и метрики качества для линейных моделей (ipynb), данные (50_Startups.csv).
 
Дополнительно:
- Официальная документация sklearn.
 - Еще про seaborn: статья про тепловые карты, документация regplot() для регрессий разных видов.
 
Неделя 5. Задачи машинного обучения
Неделя 6. Логистическая регрессия
- Логистическая регрессия (слайды).
 - Практикум 6. Логистическая регрессия: вычисление предсказанных вероятностей (ipynb).
 - Практикум 6*. Логистическая регрессия: реальные данные (для желающих).
 
Домашнее задание
Формат выполнения
1. Скачать pdf-файл с частью A. Скачать ipynb-файл с частями BC.
2. Перенести все ответы в гугл-форму до дедлайна – 19 марта 23:59.
3. Загрузить ipynb-файл с решениями части B и C на Dropbox – ссылка в конце гугл-формы.
Файлы:
- Часть А: варианты
 - Части BC: ipynb
 - Гугл-форма для ответов (одна для всех вариантов)
 
К независимому экзамену
Задания взяты из SmartLMS, материалы по ссылкам ниже доступны по паролю из рассылки (одинаковый у всех файлов).
Разбор демоверсии и тренировочных вариантов из SmartLMS (часть А):
- Демоверсия НЭ (ML – темы, относящиеся к машинному обучению, ML* – темы, которые не были затронуты в обязательных курсах)
 - Тренировочные варианты НЭ
 - Разбор заданий по визуализации (№1-2 и №8-9): ссылка
 - Разбор заданий по нормальному распределению и свойствам выборок (№4-5): ссылка
 - Разбор заданий по проверке гипотез (№10-11): ссылка
 - Разбор заданий по корреляции (№6): ссылка
 - Разбор заданий по линейной регрессии (№13-14): ссылка
 - Про интерпретацию коэффициентов в моделях с логарифмом: статья
 - Разбор заданий по задачам машинного обучения и knn (№7 и №12): ссылка
 - Разбор заданий по классификации и логистической регрессии (№3 и №15): №3 (ссылка), №15 (ссылка)
 
Решения тренировочных заданий из SmartLMS (части BC):
Экзамен
- Практическая часть: ссылка на папку с вариантами.