Основы анализа данных в Python: различия между версиями

Текущая версия на 03:31, 4 мая 2024

Дорогие студенты!

Это страница обязательного курса «Основы анализа данных в Python», читаемого на программе «Политология» 3 курса бакалавриата в 1-2 модулях 2023-2024 учебного года.

Преподаватель: Тамбовцева Алла Андреевна.

Правила игры и план курса

Программа курса, организационная презентация.
Формула оценки: 0.21 * Тесты + 0.28 * Домашнее задание + 0.3 * Экзамен + 0.21 * Контрольная работа.
Подробный план курса, с примерными датами.
Сопровождающий онлайн-курс «Сбор и анализ данных в Python».

Программное обеспечение

Перед занятиями необходимо установить дистрибутив Anaconda (скачать можно здесь), который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также среду для работы Jupyter Notebook. Также есть возможность работать в Jupyter Notebook онлайн, используя ресурс Google Colab (для создания и редактирования файлов нужен аккаунт Gmail).

Установка Anaconda и запуск Jupyter Notebook:

Для установки Anaconda нужно скачать установочный файл для своей системы отсюда, запустить его и следовать инструкциям.
Среду Jupyter Notebook можно запускать через приложение Anaconda Navigator (находим Anaconda Navigator в списке программ, запускаем, кликаем на кнопку Launch под Jupyter Notebook) и отдельно от него (см. инструкцию).
Работа в Jupyter Notebook (видео), работа в Google Colab (видео).
Набор текста в Jupyter (видео, ipynb).

Для тех, кто не работал в Python и Jupyter: можно записаться на вышкинский онлайн-курс «Python как иностранный» (открыт для записи в SmartLMS). Для подготовки рабочего места рекомендуется ознакомиться со следующими материалами в теме 1: Видео. Подготовка рабочего места, инструкция по открытию файлов в Jupyter Notebook, Видео. Первая программа, Задачи для тренировки.

Материалы

Введение в выборочные обследования

Генеральная совокупность и выборка. Репрезентативность выборки. Способы формирования выборок.
Нарушение свойства репрезентативности и виды смещений. Ошибка выборки (sampling error).

Лекция 1. Введение в выборочные обследования (слайды, ipynb с примерами, файл students.csv).
Практикум 1. Модуль random. Обработка данных с pandas (читать, ipynb, beasts.csv), решения (читать, ipynb).

Дополнительно:

Массивы NumPy и датафреймы Pandas (читать).
Основные операции с датафреймами Pandas (читать, Salaries.csv)

Описание данных

Шкалы данных. Меры центральной тенденции, меры разброса данных, порядковые статистики.
Поиск нехарактерных значений. Описание качественных данных: абсолютные и относительные частоты.

Лекция 2. Описательные статистики (слайды).
Практикум 2. Описательные статистики, группировка и агрегирование в pandas (читать, ipynb, c.xlsx), решения (читать, ipynb).

Визуализация данных

Визуализация количественных данных: гистограмма, график плотности распределения и ящик с усами.
Визуализация качественных данных: столбиковая диаграмма и круговая диаграмма. Принципы хорошей визуализации.

Лекция 3. Визуализация данных (слайды).
Практикум 3.1. Обработка пропущенных значений и визуализация количественных данных (читать, ipynb, c.xlsx), решения (читать, ipynb).
Практикум 3.2. Обработка опросных данных и визуализация качественных данных (читать, ipynb, NPK_fin.xlsx), решения (читать, ipynb).
Опрос: ссылка.

Выборочное оценивание

Напоминание про случайные величины и распределения. Выборочное распределение доли и выборочное распределение среднего.
Понятие стандартной ошибки. Доверительный интервал для выборочной доли. Доверительный интервал для среднего.

Лекция 4. Введение в выборочное оценивание: выборочные оценки и доверительные интервалы (слайды).
Иллюстрация действия статистических законов (читать, ipynb).

Проверка статистических гипотез

Проверка статистических гипотез. Концепция p-value. Ошибки первого и второго рода. Статистическая значимость.
Проверка гипотезы о равенстве доли числу. Проверка гипотезы о равенстве среднего числу. Проверка гипотезы о равенстве средних.

Лекция 5. Проверка статистических гипотез (слайды).
Практикум 4. Доверительные интервалы в Python (читать, ipynb, c.xlsx), решения (читать, ipynb).
Практикум 5. Проверка гипотез в Python (читать, ipynb), решения (читать, ipynb).

Поиск связей в данных

Оценка связи между двумя признаками в количественной шкале: коэффициенты корреляции Пирсона и Спирмена.
Оценка связи между двумя признаками в качественной шкале: таблицы сопряженности и хи-квадрат критерий согласия Пирсона.

Лекция 6. Поиск связей в данных (слайды).
Практикум 6. Поиск связей в данных: введение (читать, ipynb, TaskB4.xlsx, c.xlsx), решения (читать, ipynb).
Практикум 7. Повторение (Netflix.csv, читать, ipynb).

Введение в машинное обучение

Постановка задач машинного обучения. Виды задач машинного обучения: регрессия, классификация, кластеризация,
снижение размерности. Метод k ближайших соседей и его использование для задач классификации.

Лекция 8.1. Задачи машинного обучения (слайды).
Лекция 8.2. Знакомство с методом k-ближайших соседей (слайды).
Практикум 8.1. Метод k ближайших соседей: работаем с изображениями (читать, ipynb, данные).
Практикум 8.2. Метод k ближайших соседей: работаем с числовыми данными (читать, ipynb, penguins.csv).

Линейная регрессия

Лекция 9. Парная линейная регрессия.
Практикум 9. Парная и множественная линейная регрессия с точки зрения машинного обучения (ipynb, c.xlsx), решения (читать, ipynb).
Визуализация множественной линейной модели, визуализация градиентного спуска.

Дополнительно – линейная регрессия с точки зрения классической статистики:

Парная линейная регрессия (практикум), модели с фиктивными переменными (практикум), множественная регрессия (практикум).
Линейные модели с эффектом взаимодействия, выгрузка результатов регрессионного анализа (практикум).
Файлы с данными: flats.csv, tooth.csv, networks.csv, ug_replication_data.csv.

Логистическая регрессия

Лекция 10. Логистическая регрессия.
Практикум 10. Множественная логистическая регрессия (ipynb, WhiteChristmas.csv, HR.csv).

Домашние задания

Домашнее задание	Файлы	Дедлайн	Сдача
Домашнее задание 1	ipynb owls.csv	08.10 23:59	ссылка на Dropbox
Домашнее задание 2	ipynb hp_upd.csv	10.11 23:59	Dropbox: 211 212 213 214
Домашнее задание 3	ipynb order_details.csv orders.csv	20.11 23:59	Dropbox: 211 212 213 214
Домашнее задание 4	ipynb mushrooms.csv	10.12 23:59	Dropbox: 211 212 213 214
Домашнее задание 5	ipynb insurance.csv	17.12 23:59	Dropbox: 211 212 213 214

@@ Строка 127: / Строка 127: @@
 |-
 |}
-=== Экзамен ===
-[https://docs.google.com/document/d/1ctSw4wmiIFbMNnVZWc3TuxvFhtzum0__So-CuJ_9oOc/edit?usp=sharing Документ] со ссылками на варианты

Основы анализа данных в Python: различия между версиями

Текущая версия на 03:31, 4 мая 2024

Содержание

Правила игры и план курса

Программное обеспечение

Материалы

Введение в выборочные обследования

Описание данных

Визуализация данных

Выборочное оценивание

Проверка статистических гипотез

Поиск связей в данных

Введение в машинное обучение

Линейная регрессия

Логистическая регрессия

Домашние задания

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Заглавная

Школа лингвистики

Политология

Вычислительные социальные науки

Факультет креативных индустрий

ОП социология

ОП Психология

МИЭФ

Архив

Инструменты