Основы анализа данных в Python
Дорогие студенты!
Это страница обязательного курса «Основы анализа данных в Python», читаемого на программе «Политология» 3 курса бакалавриата в 1-2 модулях 2023-2024 учебного года.
Преподаватель: Тамбовцева Алла Андреевна.
Правила игры и план курса
- Программа курса, организационная презентация.
 - Формула оценки: 0.21 * Тесты + 0.28 * Домашнее задание + 0.3 * Экзамен + 0.21 * Контрольная работа.
 - Подробный план курса, с примерными датами.
 - Сопровождающий онлайн-курс «Сбор и анализ данных в Python».
 
Программное обеспечение
Перед занятиями необходимо установить дистрибутив Anaconda (скачать можно здесь), который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также среду для работы Jupyter Notebook. Также есть возможность работать в Jupyter Notebook онлайн, используя ресурс Google Colab (для создания и редактирования файлов нужен аккаунт Gmail).
Установка Anaconda и запуск Jupyter Notebook:
- Для установки Anaconda нужно скачать установочный файл для своей системы отсюда, запустить его и следовать инструкциям.
 - Среду Jupyter Notebook можно запускать через приложение Anaconda Navigator (находим Anaconda Navigator в списке программ, запускаем, кликаем на кнопку Launch под Jupyter Notebook) и отдельно от него (см. инструкцию).
 - Работа в Jupyter Notebook (видео), работа в Google Colab (видео).
 - Набор текста в Jupyter (видео, ipynb).
 
Для тех, кто не работал в Python и Jupyter: можно записаться на вышкинский онлайн-курс «Python как иностранный» (открыт для записи в SmartLMS). Для подготовки рабочего места рекомендуется ознакомиться со следующими материалами в теме 1: Видео. Подготовка рабочего места, инструкция по открытию файлов в Jupyter Notebook, Видео. Первая программа, Задачи для тренировки.
Материалы
Введение в выборочные обследования
Генеральная совокупность и выборка. Репрезентативность выборки. Способы формирования выборок. 
Нарушение свойства репрезентативности и виды смещений. Ошибка выборки (sampling error).
- Лекция 1. Введение в выборочные обследования (слайды, ipynb с примерами, файл students.csv).
 - Практикум 1. Модуль random. Обработка данных с pandas (читать, ipynb, beasts.csv), решения (читать, ipynb).
 
Дополнительно:
- Массивы NumPy и датафреймы Pandas (читать).
 - Основные операции с датафреймами Pandas (читать, Salaries.csv)
 
Описание данных
Шкалы данных. Меры центральной тенденции, меры разброса данных, порядковые статистики. 
Поиск нехарактерных значений. Описание качественных данных: абсолютные и относительные частоты. 
- Лекция 2. Описательные статистики (слайды).
 - Практикум 2. Описательные статистики, группировка и агрегирование в pandas (читать, ipynb, c.xlsx), решения (читать, ipynb).
 
Визуализация данных
Визуализация количественных данных: гистограмма, график плотности распределения и ящик с усами.  
Визуализация качественных данных: столбиковая диаграмма и круговая диаграмма. Принципы хорошей визуализации.
- Лекция 3. Визуализация данных (слайды).
 - Практикум 3.1. Обработка пропущенных значений и визуализация количественных данных (читать, ipynb, c.xlsx), решения (читать, ipynb).
 - Практикум 3.2. Обработка опросных данных и визуализация качественных данных (читать, ipynb, NPK_fin.xlsx), решения (читать, ipynb).
 - Опрос: ссылка.
 
Выборочное оценивание
Напоминание про случайные величины и распределения. Выборочное распределение доли и выборочное распределение среднего. 
Понятие стандартной ошибки. Доверительный интервал для выборочной доли. Доверительный интервал для среднего. 
- Лекция 4. Введение в выборочное оценивание: выборочные оценки и доверительные интервалы (слайды).
 - Иллюстрация действия статистических законов (читать, ipynb).
 
Проверка статистических гипотез
Проверка статистических гипотез. Концепция p-value. Ошибки первого и второго рода. Статистическая значимость. 
Проверка гипотезы о равенстве доли числу. Проверка гипотезы о равенстве среднего числу. Проверка гипотезы о равенстве средних.
- Лекция 5. Проверка статистических гипотез (слайды).
 - Практикум 4. Доверительные интервалы в Python (читать, ipynb, c.xlsx), решения (читать, ipynb).
 - Практикум 5. Проверка гипотез в Python (читать, ipynb), решения (читать, ipynb).
 
Поиск связей в данных
Оценка связи между двумя признаками в количественной шкале: коэффициенты корреляции Пирсона и Спирмена.
Оценка связи между двумя признаками в качественной шкале: таблицы сопряженности и хи-квадрат критерий согласия Пирсона.
- Лекция 6. Поиск связей в данных (слайды).
 - Практикум 6. Поиск связей в данных: введение (читать, ipynb, TaskB4.xlsx, c.xlsx), решения (читать, ipynb).
 - Практикум 7. Повторение (Netflix.csv, читать, ipynb).
 
Введение в машинное обучение
Постановка задач машинного обучения. Виды задач машинного обучения: регрессия, классификация, кластеризация, 
снижение размерности.
Метод k ближайших соседей и его использование для задач классификации. 
- Лекция 8.1. Задачи машинного обучения (слайды).
 - Лекция 8.2. Знакомство с методом k-ближайших соседей (слайды).
 - Практикум 8.1. Метод k ближайших соседей: работаем с изображениями (читать, ipynb, данные).
 - Практикум 8.2. Метод k ближайших соседей: работаем с числовыми данными (читать, ipynb, penguins.csv).
 
Линейная регрессия
- Лекция 9. Парная линейная регрессия.
 - Практикум 9. Парная и множественная линейная регрессия с точки зрения машинного обучения (ipynb, c.xlsx), решения (читать, ipynb).
 - Визуализация множественной линейной модели, визуализация градиентного спуска.
 
Дополнительно – линейная регрессия с точки зрения классической статистики:
- Парная линейная регрессия (практикум), модели с фиктивными переменными (практикум), множественная регрессия (практикум).
 - Линейные модели с эффектом взаимодействия, выгрузка результатов регрессионного анализа (практикум).
 - Файлы с данными: flats.csv, tooth.csv, networks.csv, ug_replication_data.csv.
 
Логистическая регрессия
- Лекция 10. Логистическая регрессия.
 - Практикум 10. Множественная логистическая регрессия (ipynb, WhiteChristmas.csv, HR.csv).
 
Домашние задания
| Домашнее задание | Файлы | Дедлайн | Сдача | 
|---|---|---|---|
| Домашнее задание 1 | ipynb owls.csv | 08.10 23:59 | ссылка на Dropbox | 
| Домашнее задание 2 | ipynb hp_upd.csv | 10.11 23:59 | Dropbox: 211 212 213 214 | 
| Домашнее задание 3 | ipynb order_details.csv orders.csv | 20.11 23:59 | Dropbox: 211 212 213 214 | 
| Домашнее задание 4 | ipynb mushrooms.csv | 10.12 23:59 | Dropbox: 211 212 213 214 | 
| Домашнее задание 5 | ipynb insurance.csv | 17.12 23:59 | Dropbox: 211 212 213 214 | 
Экзамен
Документ со ссылками на варианты