Анализ данных на Python

Материал из MathINFO
Версия от 01:56, 1 мая 2025; Alla Tambovtseva (обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к навигации Перейти к поиску

Дорогие студенты!

Это страница обязательного курса «Анализ данных на Python», читаемого на программе «Разработка информационных систем для бизнеса»
2 курса бакалавриата в 4 модуле 2024-2025 учебного года.

Занятия ведут: Николаев Ян Андреевич, Тамбовцева Алла Андреевна.

Правила игры

Формула оценки: 0.6 × ДЗ + 0.15 × Активность + 0.25 × Тест.

Пояснения:

  • ДЗ: мини-проекты, посвященные анализу и визуализации данных, а также сбору и обработке данных.
  • Активность: участие в квизах, опросах и групповых заданиях на семинарах.
  • Тест: итоговый тест с закрытыми и открытыми вопросами по обработке, визуализации и анализу данных.
  • Домашние задания, сданные после срока, оцениваются с использованием понижающих коэффициентов:
    опоздание в пределах часа – штраф 10% от оценки, в пределах суток – штраф 30%.
    Домашние задания, сданные позже, не принимаются и не оцениваются.

Среда для работы

Писать код Python на занятиях и рамках домашних заданий можно в любой среде (PyCharm, Jupyter Notebook, VS и другие).
На занятиях мы будем демонстрировать работу в Jupyter Notebook и PyCharm. Конспекты занятий с кодом будут опубликованы в виде ipynb-файлов на Github. Читать их можно онлайн, открывать с возможностью редактировать – преимущественно через Jupyter Notebook (в PyCharm их поддерживает только платная версия Professional).

  • Если вы планируете работать в Jupyter Notebook, проще всего установить дистрибутив Anaconda (скачать можно здесь), который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также среду разработки Jupyter Notebook. Также есть возможность работать в Jupyter Notebook онлайн, используя ресурс Google Colab (для создания и редактирования файлов нужен аккаунт Gmail). Подробности по работе – см. ниже в неделе 0.
  • Если вы планируете работать в PyCharm, эту среду можно скачать по ссылке, бесплатная версия Community.

Материалы курса

Неделя 0. Про Python и Jupyter Notebook

Дополнительно:

Неделя 1. Шкалы данных. Индексируемые структуры данных

Самостоятельное изучение 1

  • Описательные статистики (слайды).
  • Цикл for и его аналоги (ipynb).

Неделя 2. Проверка статистических гипотез. Массивы NumPy

Обратите внимание: внесены правки в слайды, чтобы логика вычисления статистик совпадала
с тем, что принято в функциях Python
и общей практике (первая доля минус вторая, не наоборот).
Левосторонняя альтернатива H0: p1 < p2, правосторонняя – H1: p1 > p2.

  • Проверка статистических гипотез (слайды)
  • Примеры статистических тестов и массивы NumPy (конспект ipynb, код py)
  • Выбор статистических тестов для разных задач (ipynb)

Дополнительно:

  • Выборочное оценивание (слайды)
  • Памятка по описательным статистикам – тут можно почитать поподробнее про ящик с усами.

Самостоятельное изучение 2

  • Еще немного про списки vs массивы: ipynb

Неделя 3. Словари и датафреймы Pandas

  • Словарь, Pandas Series, Pandas DataFrame (конспект ipynb)
  • Работа с датафреймами: часть 1 (конспект ipynb, данные ab_testing.csv.csv)
  • Работа с датафреймами: часть 2 (конспект ipynb, данные hseteachers.csv)

Дополнительно:

Неделя 4. Введение в визуализацию

  • Визуализация данных (слайды)
  • Разбор квиза по визуализации (видео)

Домашние задания