НИС Основы анализа данных в Python: различия между версиями

Материал из MathINFO
Перейти к навигации Перейти к поиску
 
(не показано 9 промежуточных версий этого же участника)
Строка 59: Строка 59:
 
* Официальная [https://scikit-learn.org/stable/index.html документация] sklearn.
 
* Официальная [https://scikit-learn.org/stable/index.html документация] sklearn.
 
* Еще про seaborn: [https://datastart.ru/blog/read/seaborn-heatmaps-13-sposobov-nastroit-vizualizaciyu-matricy-korrelyacii статья] про тепловые карты, [https://seaborn.pydata.org/generated/seaborn.regplot.html документация] regplot() для регрессий разных видов.
 
* Еще про seaborn: [https://datastart.ru/blog/read/seaborn-heatmaps-13-sposobov-nastroit-vizualizaciyu-matricy-korrelyacii статья] про тепловые карты, [https://seaborn.pydata.org/generated/seaborn.regplot.html документация] regplot() для регрессий разных видов.
 +
 +
=== Неделя 5. Задачи машинного обучения ===
 +
 +
* Задачи машинного обучения ([https://disk.yandex.ru/i/Gp5r9Do9kQncEg слайды]).
 +
* Метод k-ближайших соседей как пример классификации ([https://disk.yandex.ru/i/3abaXNvibET0cw слайды]).
 +
 +
=== Неделя 6. Логистическая регрессия ===
 +
 +
* Логистическая регрессия ([https://disk.yandex.ru/d/ICtRHV8iJWY2fg слайды]).
 +
* Практикум 6. Логистическая регрессия: вычисление предсказанных вероятностей ([https://disk.yandex.ru/d/RnOulxBA-vTLag ipynb]).
 +
* Практикум 6*. Логистическая регрессия: реальные данные (для желающих).
 +
 +
== Домашнее задание ==
 +
 +
'''Формат выполнения'''
 +
 +
1. Скачать pdf-файл с частью A. Скачать ipynb-файл с частями BC.
 +
 +
2. Перенести все ответы в гугл-форму до дедлайна – 19 марта 23:59.
 +
 +
3. Загрузить ipynb-файл с решениями части B и C на Dropbox – '''ссылка в конце гугл-формы'''.
 +
 +
'''Файлы:'''
 +
 +
* Часть А: [https://disk.yandex.ru/d/MPbfmrR_0zKbpA варианты]
 +
* Части BC: [https://disk.yandex.ru/d/atpmv73GthV8nA ipynb]
 +
* [https://forms.gle/YEa1czgYMhL9i1aR6 Гугл-форма] для ответов (одна для всех вариантов)
  
 
== К независимому экзамену ==
 
== К независимому экзамену ==
Строка 73: Строка 100:
 
* Разбор заданий по корреляции (№6): [https://disk.yandex.ru/i/c2mq0gOEAEfNrg ссылка]
 
* Разбор заданий по корреляции (№6): [https://disk.yandex.ru/i/c2mq0gOEAEfNrg ссылка]
 
* Разбор заданий по линейной регрессии (№13-14): [https://disk.yandex.ru/d/fScNWGg1qjSP9g ссылка]
 
* Разбор заданий по линейной регрессии (№13-14): [https://disk.yandex.ru/d/fScNWGg1qjSP9g ссылка]
* Про интерпретацию коэффициентов в моделях с логарифмом ([https://library.virginia.edu/data/articles/interpreting-log-transformations-in-a-linear-model статья])
+
* Про интерпретацию коэффициентов в моделях с логарифмом: [https://library.virginia.edu/data/articles/interpreting-log-transformations-in-a-linear-model статья]
* Разбор заданий по задачам машинного обучения (№12): TBA
+
* Разбор заданий по задачам машинного обучения и knn (№7 и №12): [https://disk.yandex.ru/i/Db2rsLvC8s0mOw ссылка]
* Разбор заданий по классификации и логистической регрессии (№3 и №7): TBA
+
* Разбор заданий по классификации и логистической регрессии (№3 и №15): №3 ([https://disk.yandex.ru/i/TmSGMRgRHSZRMQ ссылка]), №15 ([https://disk.yandex.ru/i/Ddb22EhoXnONMQ ссылка])
  
 
Решения тренировочных заданий из SmartLMS (части BC):  
 
Решения тренировочных заданий из SmartLMS (части BC):  
Строка 82: Строка 109:
 
* часть C ([https://disk.yandex.ru/d/iSnsLe7DK_wnxg ссылка])
 
* часть C ([https://disk.yandex.ru/d/iSnsLe7DK_wnxg ссылка])
  
== Практикум ==
+
== Экзамен ==
  
* Слот 03:
+
* Практическая часть: [https://disk.yandex.ru/d/vMcYoY3hY0xpXw ссылка] на папку с вариантами.

Текущая версия на 12:09, 22 марта 2025

Дорогие студенты!

Это страница курса НИС «Основы анализа данных в Python», читаемого в 3 модуле 2024-2025 учебного года на ОП «Политология».
Этот курс является продолжением обязательного курса «Основы анализа данных в Python».

Преподаватель: Тамбовцева Алла Андреевна.

Правила игры

  • Программа курса, организационная презентация.
  • Формула оценки: 0.15 * Тесты + 0.2 * Практикум + 0.2 * ДЗ + 0.45 * Экзамен.
  • Цель курса – подготовка к независимому экзамену по анализу данных. Демоверсию экзамена и тренировочные варианты
    можно найти здесь в разделе Материалы для подготовкиАнализ данных. Базовый уровень (запись на курс в SmartLMS).

Программное обеспечение

В рамках этого курса мы будем использовать язык Python и среду разработки Jupyter Notebook.
Также есть возможность работать в аналоге Jupyter Notebook онлайн, используя ресурс Google Colab
(для создания и редактирования файлов нужен аккаунт Gmail).

NB. На независимом экзамене не разрешается использовать облачные ресурсы, включая Google Colab.

Если у вас ничего не установлено или вы успели «удалить весь Python», перед занятиями необходимо
установить дистрибутив Anaconda (скачать можно здесь, регистрацию можно пропустить), который
включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации
данных, а также среду для работы Jupyter Notebook. Материалы по работе в Jupyter Notebook и Colab:

Материалы курса

Неделя 1. Группировка с pandas. Критерий согласия хи-квадрат

  • Практикум 1. Группировка с pandas (ipynb), данные для работы (happiness_b.csv).
  • Тренировочный вариант НЭ (ссылка, доступен по паролю).
  • Меры связи в качественной шкале: критерий хи-квадрат (слайды).

Неделя 2. Качественные данные и критерий согласия хи-квадрат

  • Практикум 2. Критерий согласия хи-квадрат, обработка текстовых данных и дат (ipynb), решения (ipynb).
  • Данные для практикума 2 (CSV-файлы).

Дополнительно:

  • Статья про регулярные выражения в Python и модуль re.
  • Краткий обзор регулярных выражений и примеры использования их в pandas (ipynb).
  • Форматирование дат – раздел общей документации по модулю datetime (в pandas свой похожий модуль).

Неделя 3. Диаграммы рассеивания и коэффициент корреляции Пирсона

  • Напоминание про диаграммы рассеивания и коэффициент Пирсона (слайды).
  • Практикум 3. Коэффициент корреляции Пирсона (ipynb), данные (happiness_b.csv), решения (ipynb).

Дополнительно:

Неделя 4. Линейная регрессия и метрики качества

  • Краткая теория по линейной регрессии и метрикам качества (слайды)
  • Практикум 4. Линейная регрессия и метрики качества для линейных моделей (ipynb), данные (50_Startups.csv).

Дополнительно:

Неделя 5. Задачи машинного обучения

  • Задачи машинного обучения (слайды).
  • Метод k-ближайших соседей как пример классификации (слайды).

Неделя 6. Логистическая регрессия

  • Логистическая регрессия (слайды).
  • Практикум 6. Логистическая регрессия: вычисление предсказанных вероятностей (ipynb).
  • Практикум 6*. Логистическая регрессия: реальные данные (для желающих).

Домашнее задание

Формат выполнения

1. Скачать pdf-файл с частью A. Скачать ipynb-файл с частями BC.

2. Перенести все ответы в гугл-форму до дедлайна – 19 марта 23:59.

3. Загрузить ipynb-файл с решениями части B и C на Dropbox – ссылка в конце гугл-формы.

Файлы:

К независимому экзамену

Задания взяты из SmartLMS, материалы по ссылкам ниже доступны по паролю из рассылки (одинаковый у всех файлов).

Разбор демоверсии и тренировочных вариантов из SmartLMS (часть А):

  • Демоверсия НЭ (ML – темы, относящиеся к машинному обучению, ML* – темы, которые не были затронуты в обязательных курсах)
  • Тренировочные варианты НЭ
  • Разбор заданий по визуализации (№1-2 и №8-9): ссылка
  • Разбор заданий по нормальному распределению и свойствам выборок (№4-5): ссылка
  • Разбор заданий по проверке гипотез (№10-11): ссылка
  • Разбор заданий по корреляции (№6): ссылка
  • Разбор заданий по линейной регрессии (№13-14): ссылка
  • Про интерпретацию коэффициентов в моделях с логарифмом: статья
  • Разбор заданий по задачам машинного обучения и knn (№7 и №12): ссылка
  • Разбор заданий по классификации и логистической регрессии (№3 и №15): №3 (ссылка), №15 (ссылка)

Решения тренировочных заданий из SmartLMS (части BC):

Экзамен

  • Практическая часть: ссылка на папку с вариантами.