Анализ данных на Python: различия между версиями
(не показано 7 промежуточных версий этого же участника) | |||
Строка 82: | Строка 82: | ||
* Визуализация данных ([https://disk.yandex.ru/d/UnB4OblNMloLKg слайды]) | * Визуализация данных ([https://disk.yandex.ru/d/UnB4OblNMloLKg слайды]) | ||
* Разбор квиза по визуализации ([https://disk.yandex.ru/i/KIWSbUCwLC9Oaw видео]) | * Разбор квиза по визуализации ([https://disk.yandex.ru/i/KIWSbUCwLC9Oaw видео]) | ||
+ | |||
+ | === Неделя 5. Визуализация с matplotlib === | ||
+ | |||
+ | * Практикум по matplotlib ([https://github.com/allatambov/PyPerm25/blob/main/05-vis-practice.ipynb ipynb]), [https://disk.yandex.ru/i/cOG68ebPvkw-WQ данные]. | ||
+ | * Решения практикума ([https://github.com/allatambov/PyPerm25/blob/main/05-vis-practice-solutions.ipynb ipynb]), видеоразбор с №5-№8. | ||
+ | |||
+ | Дополнительно: | ||
+ | |||
+ | * [https://matplotlib.org/stable/api/patches_api.html Документация] по патчам (patches) в matplotlib. | ||
+ | |||
+ | === Неделя 6. Работа с API и JSON === | ||
+ | |||
+ | === Недели 7-8. Логистическая регрессия === | ||
+ | |||
+ | Теория: | ||
+ | |||
+ | * Логистическая регрессия и оценка качества классификации ([https://disk.yandex.ru/i/z_OwuJfYc_N9Mw слайды]) | ||
+ | * Разбор квиза по логистической регрессии ([https://disk.yandex.ru/i/2-khuoLz1biEDQ видео]) | ||
+ | |||
+ | Практика: | ||
+ | |||
+ | * Практикум по логистической регрессии: код 1-3 группы ([https://github.com/allatambov/PyPerm25/blob/main/logit-practice-01-03.ipynb ipynb]), код 2-4 группы ([https://github.com/allatambov/PyPerm25/blob/main/logit-practice-02-04.ipynb ipynb]) | ||
+ | * Практикум по логистической регрессии: подробный конспект (ipynb) | ||
+ | |||
+ | Дополнительно: | ||
+ | |||
+ | * | ||
+ | * | ||
+ | |||
+ | === Недели 9-10. Линейная регрессия === | ||
+ | |||
+ | * Линейная регрессия: краткий теоретический обзор ([https://disk.yandex.ru/i/lrywVL9JMDsBpw слайды]) | ||
+ | * Практикум по линейной регрессии: подробный конспект ([https://github.com/allatambov/PyPerm25/blob/main/07-linear-reg.ipynb ipynb]) | ||
+ | * Разбор квиза по линейной регрессии ([видео]) | ||
+ | |||
+ | Дополнительно: | ||
+ | |||
+ | * Конспект по линейной регрессии с подробным разбором выдачи и проверки допущений об остатках ([https://github.com/allatambov/StatCS25/blob/main/practice03.ipynb ipynb]) | ||
== Домашние задания == | == Домашние задания == | ||
* [https://github.com/allatambov/PyPerm25/blob/main/hw01.ipynb Домашнее задание №1], дедлайн 17 мая 23:59 (по Перми) | * [https://github.com/allatambov/PyPerm25/blob/main/hw01.ipynb Домашнее задание №1], дедлайн 17 мая 23:59 (по Перми) | ||
− | * Домашнее задание №2 | + | * [https://github.com/allatambov/PyPerm25/blob/main/hw02.ipynb Домашнее задание №2], дедлайн 17 июня 23:59 (по Перми) |
− | * Домашнее задание №3 | + | * Домашнее задание №3 (бонусное): TBA |
Текущая версия на 01:37, 19 июня 2025
Дорогие студенты!
Это страница обязательного курса «Анализ данных на Python», читаемого на программе «Разработка информационных систем для бизнеса»
2 курса бакалавриата в 4 модуле 2024-2025 учебного года.
Занятия ведут: Николаев Ян Андреевич, Тамбовцева Алла Андреевна.
Содержание
- 1 Правила игры
- 2 Среда для работы
- 3 Материалы курса
- 3.1 Неделя 0. Про Python и Jupyter Notebook
- 3.2 Неделя 1. Шкалы данных. Индексируемые структуры данных
- 3.3 Самостоятельное изучение 1
- 3.4 Неделя 2. Проверка статистических гипотез. Массивы NumPy
- 3.5 Самостоятельное изучение 2
- 3.6 Неделя 3. Словари и датафреймы Pandas
- 3.7 Неделя 4. Введение в визуализацию
- 3.8 Неделя 5. Визуализация с matplotlib
- 3.9 Неделя 6. Работа с API и JSON
- 3.10 Недели 7-8. Логистическая регрессия
- 3.11 Недели 9-10. Линейная регрессия
- 4 Домашние задания
Правила игры
Формула оценки: 0.6 × ДЗ + 0.15 × Активность + 0.25 × Тест.
Пояснения:
- ДЗ: мини-проекты, посвященные анализу и визуализации данных, а также сбору и обработке данных.
- Активность: участие в квизах, опросах и групповых заданиях на семинарах.
- Тест: итоговый тест с закрытыми и открытыми вопросами по обработке, визуализации и анализу данных.
- Домашние задания, сданные после срока, оцениваются с использованием понижающих коэффициентов:
опоздание в пределах часа – штраф 10% от оценки, в пределах суток – штраф 30%.
Домашние задания, сданные позже, не принимаются и не оцениваются.
Среда для работы
Писать код Python на занятиях и рамках домашних заданий можно в любой среде (PyCharm, Jupyter Notebook, VS и другие).
На занятиях мы будем демонстрировать работу в Jupyter Notebook и PyCharm. Конспекты занятий с кодом будут опубликованы в виде ipynb-файлов на Github. Читать их можно онлайн, открывать с возможностью редактировать – преимущественно через Jupyter Notebook (в PyCharm их поддерживает только платная версия Professional).
- Если вы планируете работать в Jupyter Notebook, проще всего установить дистрибутив Anaconda (скачать можно здесь), который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также среду разработки Jupyter Notebook. Также есть возможность работать в Jupyter Notebook онлайн, используя ресурс Google Colab (для создания и редактирования файлов нужен аккаунт Gmail). Подробности по работе – см. ниже в неделе 0.
- Если вы планируете работать в PyCharm, эту среду можно скачать по ссылке, бесплатная версия Community.
Материалы курса
Неделя 0. Про Python и Jupyter Notebook
- Запуск Jupyter без Anaconda Navigator (инструкция).
- Работа в Jupyter Notebook (видео), отличия Google Colab от Jupyter (видео).
Дополнительно:
Неделя 1. Шкалы данных. Индексируемые структуры данных
- Шкалы данных (слайды).
- Индексируемые структуры данных (конспект ipynb, код py).
- Визуализатор кода от Pythontutor.
Самостоятельное изучение 1
Неделя 2. Проверка статистических гипотез. Массивы NumPy
Обратите внимание: внесены правки в слайды, чтобы логика вычисления статистик совпадала
с тем, что принято в функциях Python
и общей практике (первая доля минус вторая, не наоборот).
Левосторонняя альтернатива H0: p1 < p2, правосторонняя – H1: p1 > p2.
- Проверка статистических гипотез (слайды)
- Примеры статистических тестов и массивы NumPy (конспект ipynb, код py)
- Выбор статистических тестов для разных задач (ipynb)
Дополнительно:
- Выборочное оценивание (слайды)
- Памятка по описательным статистикам – тут можно почитать поподробнее про ящик с усами.
Самостоятельное изучение 2
- Еще немного про списки vs массивы: ipynb
Неделя 3. Словари и датафреймы Pandas
- Словарь, Pandas Series, Pandas DataFrame (конспект ipynb)
- Работа с датафреймами: часть 1 (конспект ipynb, данные ab_testing.csv.csv)
- Работа с датафреймами: часть 2 (конспект ipynb, данные hseteachers.csv)
Дополнительно:
- Палитра цветов: coolors.co
- Про дату время в Python: документация
- API ВКонтакте: документация, инструкция по получению доступа, пример выгрузки постов (ipynb)
Неделя 4. Введение в визуализацию
Неделя 5. Визуализация с matplotlib
Дополнительно:
- Документация по патчам (patches) в matplotlib.
Неделя 6. Работа с API и JSON
Недели 7-8. Логистическая регрессия
Теория:
- Логистическая регрессия и оценка качества классификации (слайды)
- Разбор квиза по логистической регрессии (видео)
Практика:
- Практикум по логистической регрессии: код 1-3 группы (ipynb), код 2-4 группы (ipynb)
- Практикум по логистической регрессии: подробный конспект (ipynb)
Дополнительно:
Недели 9-10. Линейная регрессия
- Линейная регрессия: краткий теоретический обзор (слайды)
- Практикум по линейной регрессии: подробный конспект (ipynb)
- Разбор квиза по линейной регрессии ([видео])
Дополнительно:
- Конспект по линейной регрессии с подробным разбором выдачи и проверки допущений об остатках (ipynb)
Домашние задания
- Домашнее задание №1, дедлайн 17 мая 23:59 (по Перми)
- Домашнее задание №2, дедлайн 17 июня 23:59 (по Перми)
- Домашнее задание №3 (бонусное): TBA