Научно-исследовательский семинар: Основы анализа данных в Python

Материал из MathINFO
Перейти к навигации Перейти к поиску

Дорогие студенты!

Это страница курса «НИС: Основы анализа данных в Python», читаемого в 2-3 модулях 2025-2026 учебного года.
Курс является обязательным для студентов бакалаврской программы «Политология».

Преподаватель: Тамбовцева Алла Андреевна.

Программа курса.

Правила игры

Итоговая оценка = 0.2 × Квизы + 0.24 × Лабораторные работы + 0.16 × КР + 0.4 × Экзамен.

  • Квизы: небольшие письменные работы на 10 минут. В квиз входят теоретические вопросы в формате независимого экзамена
    по анализу данных, а также практические вопросы по коду Python и интерпретации его выдач. Запускать код и пользоваться
    материалами во время квиза не разрешается. Оценка за квизы в 10-балльной шкале формируется на основе нормировки
    суммарного балла за все квизы на курсе.
  • Лабораторные работы: наборы небольших практических задач в Python, для выполнения которых требуется вспомнить
    изучаемые на предыдущих курсах темы, необходимые для успешной работы на семинарах (материалы предоставляются
    преподавателем). Дедлайны по лабораторным работам жесткие, так как их выполнение привязано к занятиям по определенной
    теме. Оценка за них считается как неокругленное среднее арифметическое за все работы на курсе.
  • КР: письменная работа (80 мин) в формате независимого экзамена по анализу данных по темам 2 модуля, состоит
    из теоретической части (часть А) и практической (части B и С). Практическая часть выполняется на компьютере
    в Python, ответы на вопросы переносятся в бумажные бланки.
  • Экзамен: письменная работа в формате независимого экзамена по анализу данных, состоящую из частей А, B и C.
    Задания в части А теоретические, во время их выполнения нельзя пользоваться никакими материалами.
    Задачи в частях B, С практические, для их решения необходимо написать код Python и зафиксировать
    результат. Во время выполнения частей B и C разрешается пользоваться официальной памяткой.

Подготовка к НЭ по анализу данных

  • Одна из целей курса – подготовка к независимому экзамену по анализу данных.
  • Демоверсию экзамена и тренировочные варианты можно найти здесь в разделе
    Материалы для подготовки – Анализ данных. Базовый уровень (запись на курс в SmartLMS).
  • Курс включает темы, пройденные ранее в рамках обязательных курсов по ТВиМС и регрессионному анализу,
    поэтому частично теория изучается (=повторяется) самостоятельно по предложенным материалам и в рамках
    онлайн-учебника «Анализ данных (Базовый)».

Некоторые материалы из LMS, а также разбор заданий для тренировки доступны в папке (пароль в рассылке).

Программное обеспечение

В рамках этого курса мы будем использовать язык Python и среду разработки Jupyter Notebook.
Также есть возможность работать в аналоге Jupyter Notebook онлайн, используя ресурс Google Colab
(для создания и редактирования файлов нужен аккаунт Gmail).

NB. На независимом экзамене не разрешается использовать облачные ресурсы, включая Google Colab.

Если у вас ничего не установлено или вы успели «удалить весь Python», перед занятиями необходимо
установить дистрибутив Anaconda (скачать можно здесь, регистрацию можно пропустить), который
включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации
данных, а также среду для работы Jupyter Notebook.

Материалы по работе в Jupyter Notebook и Google Colab:

Материалы курса

NB. Во всех неделях звездочкой (*) отмечены дополнительные темы.

Неделя 1. Шкалы данных. Датафреймы pandas: типы данных и перекодирование

Все файлы в одной папке, если не скачивается с Github.

  • Шкалы данных и выбор способа описания данных в зависимости от шкалы (слайды, форма)
  • Практикум 1. Описание датафрейма: атрибуты и методы. Перекодирование данных (ipynb, csv), решения (ipynb)
  • Практикум 1*. Категориальные данные и дискретизация данных в pandas (ipynb)

Дополнительно для желающих:

Поскольку на этой неделе мы обсуждаем атрибуты и методы на объектах, отличная идея – познакомиться
с объектно-ориентированным программированием и научиться писать собственные классы и определять
на них атрибуты и методы.

Для краткого ознакомления с классами можно прочитать конспект, для закрепления теории можно
выполнить задачи, связанные с теорией вероятностей.

Лабораторная работа 1. Массивы Numpy: проверка условий и фильтрация

Необходимая теория для выполнения работы: конспект (ipynb), видео по конспекту (ссылка).

Для сдачи задания нужно скачать ipynb-файл ниже, вписать код вместо ### YOUR CODE HERE ###,
сохранить изменения, загрузить по ссылке на Dropbox.

Задание Дедлайн Dropbox
Лабораторная работа №1 (еще можно скачать тут) 18 ноября 10:00 ссылка

Неделя 2. Датафреймы pandas: фильтрация

  • Практикум 2. Датафреймы pandas: поиск пропущенных значений и фильтрация наблюдений (ipynb, csv)
  • Практикум 2*. Фильтрация за рамками датафрейма: работа с индексами (ipynb)

Лабораторная работа 2. Функция map() и lambda-функции, векторизация функций

Необходимая теория для выполнения работы: конспект (ipynb), видео по конспекту (ссылка).

Для сдачи задания нужно скачать ipynb-файл ниже, вписать код вместо ### YOUR CODE HERE ###,
сохранить изменения, загрузить по ссылке на Dropbox.

Задание Дедлайн Dropbox
Лабораторная работа №2 (еще можно скачать тут) 25 ноября 10:00 ссылка