НИС Основы анализа данных в Python

Дорогие студенты!

Это страница курса НИС «Основы анализа данных в Python», читаемого в 3 модуле 2024-2025 учебного года на ОП «Политология».
Этот курс является продолжением обязательного курса «Основы анализа данных в Python».

Преподаватель: Тамбовцева Алла Андреевна.

Правила игры

Программа курса, организационная презентация.
Формула оценки: 0.15 * Тесты + 0.2 * Практикум + 0.2 * ДЗ + 0.45 * Экзамен.
Цель курса – подготовка к независимому экзамену по анализу данных. Демоверсию экзамена и тренировочные варианты
можно найти здесь в разделе Материалы для подготовки – Анализ данных. Базовый уровень (запись на курс в SmartLMS).

Программное обеспечение

В рамках этого курса мы будем использовать язык Python и среду разработки Jupyter Notebook.
Также есть возможность работать в аналоге Jupyter Notebook онлайн, используя ресурс Google Colab
(для создания и редактирования файлов нужен аккаунт Gmail).

NB. На независимом экзамене не разрешается использовать облачные ресурсы, включая Google Colab.

Если у вас ничего не установлено или вы успели «удалить весь Python», перед занятиями необходимо
установить дистрибутив Anaconda (скачать можно здесь, регистрацию можно пропустить), который
включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации
данных, а также среду для работы Jupyter Notebook. Материалы по работе в Jupyter Notebook и Colab:

Запуск Jupyter без Anaconda Navigator (инструкция).
Работа в Jupyter Notebook (видео), отличия Google Colab от Jupyter (видео).

Материалы курса

Неделя 1. Группировка с pandas. Критерий согласия хи-квадрат

Практикум 1. Группировка с pandas (ipynb), данные для работы (happiness_b.csv).
Тренировочный вариант НЭ (ссылка, доступен по паролю).
Меры связи в качественной шкале: критерий хи-квадрат (слайды).

Неделя 2. Качественные данные и критерий согласия хи-квадрат

Практикум 2. Критерий согласия хи-квадрат, обработка текстовых данных и дат (ipynb), решения (ipynb).
Данные для практикума 2 (CSV-файлы).

Дополнительно:

Статья про регулярные выражения в Python и модуль re.
Краткий обзор регулярных выражений и примеры использования их в pandas (ipynb).
Форматирование дат – раздел общей документации по модулю datetime (в pandas свой похожий модуль).

Неделя 3. Диаграммы рассеивания и коэффициент корреляции Пирсона

Напоминание про диаграммы рассеивания и коэффициент Пирсона (слайды).
Практикум 3. Коэффициент корреляции Пирсона (ipynb), данные (happiness_b.csv), решения (ipynb).

Дополнительно:

Палитры в matplotlib: документация.

Неделя 4. Линейная регрессия и метрики качества

Краткая теория по линейной регрессии и метрикам качества (слайды)
Практикум 4. Линейная регрессия и метрики качества для линейных моделей (ipynb), данные (50_Startups.csv).

Дополнительно:

Официальная документация sklearn.
Еще про seaborn: статья про тепловые карты, документация regplot() для регрессий разных видов.

К независимому экзамену

Задания взяты из SmartLMS, материалы по ссылкам ниже доступны по паролю из рассылки (одинаковый у всех файлов).

Разбор демоверсии и тренировочных вариантов из SmartLMS (часть А):

Демоверсия НЭ (ML – темы, относящиеся к машинному обучению, ML* – темы, которые не были затронуты в обязательных курсах)
Тренировочные варианты НЭ
Разбор заданий по визуализации (№1-2 и №8-9): ссылка
Разбор заданий по нормальному распределению и свойствам выборок (№4-5): ссылка
Разбор заданий по проверке гипотез (№10-11): ссылка
Разбор заданий по корреляции (№6): ссылка
Разбор заданий по линейной регрессии (№13-14): ссылка
Про интерпретацию коэффициентов в моделях с логарифмом (статья)
Разбор заданий по задачам машинного обучения (№12): TBA
Разбор заданий по классификации и логистической регрессии (№3 и №7): TBA

Решения тренировочных заданий из SmartLMS (части BC):

часть B (ссылка)
часть C (ссылка)

Практикум

Слот 03: ссылка

НИС Основы анализа данных в Python

Содержание

Правила игры

Программное обеспечение

Материалы курса

Неделя 1. Группировка с pandas. Критерий согласия хи-квадрат

Неделя 2. Качественные данные и критерий согласия хи-квадрат

Неделя 3. Диаграммы рассеивания и коэффициент корреляции Пирсона

Неделя 4. Линейная регрессия и метрики качества

К независимому экзамену

Практикум

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Заглавная

Школа лингвистики

Политология

Факультет креативных индустрий

ОП Вычислительные социальные науки

Архив

Инструменты