НИС Основы анализа данных в Python: различия между версиями

Материал из MathINFO
Перейти к навигации Перейти к поиску
Строка 32: Строка 32:
 
=== Неделя 2. Качественные данные и критерий согласия хи-квадрат ===
 
=== Неделя 2. Качественные данные и критерий согласия хи-квадрат ===
  
* Практикум 2. Критерий согласия хи-квадрат, обработка текстовых данных и дат ([https://disk.yandex.ru/d/OUu0-aoJQSo8-g ipynb]), данные ([https://disk.yandex.ru/d/HEe4DAAfkjWdiQ CSV-файлы]).
+
* Практикум 2. Критерий согласия хи-квадрат, обработка текстовых данных и дат ([https://disk.yandex.ru/d/OUu0-aoJQSo8-g ipynb]), решения ([https://disk.yandex.ru/d/gtGz_zqSFB-fTA ipynb]).
 +
* Данные для практикума 2 ([https://disk.yandex.ru/d/HEe4DAAfkjWdiQ CSV-файлы]).
 +
 
 +
Дополнительно:
 +
 
 +
* [https://skillbox.ru/media/code/regulyarnye-vyrazheniya-v-python-sintaksis-poleznye-funktsii-i-zadachi/ Статья] про регулярные выражения в Python и модуль re.
 +
* Краткий обзор регулярных выражений и примеры использования их в pandas (ipynb).
 +
* Форматирование дат – [https://docs.python.org/3/library/datetime.html#strftime-and-strptime-format-codes раздел] общей документации по модулю datetime (в pandas свой похожий модуль).
 +
 
 +
=== Неделя 3. Корреляция и линейная регрессия ===
 +
 
 +
* Напоминание про диаграммы рассеивания и коэффициент Пирсона (слайды).
  
 
== К независимому экзамену ==
 
== К независимому экзамену ==

Версия 01:43, 26 января 2025

Дорогие студенты!

Это страница курса НИС «Основы анализа данных в Python», читаемого в 3 модуле 2024-2025 учебного года на ОП «Политология».
Этот курс является продолжением обязательного курса «Основы анализа данных в Python».

Преподаватель: Тамбовцева Алла Андреевна.

Правила игры

  • Программа курса, организационная презентация.
  • Формула оценки: 0.15 * Тесты + 0.2 * Практикум + 0.2 * ДЗ + 0.45 * Экзамен.
  • Цель курса – подготовка к независимому экзамену по анализу данных. Демоверсию экзамена и тренировочные варианты
    можно найти здесь в разделе Материалы для подготовкиАнализ данных. Базовый уровень (запись на курс в SmartLMS).

Программное обеспечение

В рамках этого курса мы будем использовать язык Python и среду разработки Jupyter Notebook.
Также есть возможность работать в аналоге Jupyter Notebook онлайн, используя ресурс Google Colab
(для создания и редактирования файлов нужен аккаунт Gmail).

NB. На независимом экзамене не разрешается использовать облачные ресурсы, включая Google Colab.

Если у вас ничего не установлено или вы успели «удалить весь Python», перед занятиями необходимо
установить дистрибутив Anaconda (скачать можно здесь, регистрацию можно пропустить), который
включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации
данных, а также среду для работы Jupyter Notebook. Материалы по работе в Jupyter Notebook и Colab:

Материалы курса

Неделя 1. Группировка с pandas. Критерий согласия хи-квадрат

  • Практикум 1. Группировка с pandas (ipynb), данные для работы (happiness_b.csv).
  • Тренировочный вариант НЭ (ссылка, доступен по паролю).
  • Меры связи в качественной шкале: критерий хи-квадрат (слайды).

Неделя 2. Качественные данные и критерий согласия хи-квадрат

  • Практикум 2. Критерий согласия хи-квадрат, обработка текстовых данных и дат (ipynb), решения (ipynb).
  • Данные для практикума 2 (CSV-файлы).

Дополнительно:

  • Статья про регулярные выражения в Python и модуль re.
  • Краткий обзор регулярных выражений и примеры использования их в pandas (ipynb).
  • Форматирование дат – раздел общей документации по модулю datetime (в pandas свой похожий модуль).

Неделя 3. Корреляция и линейная регрессия

  • Напоминание про диаграммы рассеивания и коэффициент Пирсона (слайды).

К независимому экзамену

Задания взяты из SmartLMS, материалы по ссылкам ниже доступны по паролю из рассылки (одинаковый у всех файлов).

Разбор демоверсии из SmartLMS (часть А):

  • Демоверсия НЭ (ML – темы, относящиеся к машинному обучению, ML* – темы, которые не были затронуты в обязательных курсах).
  • Разбор заданий по визуализации (№1-2 и №8-9): ссылка.
  • Разбор заданий по нормальному распределению и свойствам выборок (№4-5): ссылка.
  • Разбор заданий по проверке гипотез (№10-11): ссылка.

Решения демоверсии и тренировочных заданий из SmartLMS (части BC):

  • часть B (будет добавлено позже)
  • часть C (ссылка)