Анализ данных на Python: различия между версиями
Строка 82: | Строка 82: | ||
* Визуализация данных ([https://disk.yandex.ru/d/UnB4OblNMloLKg слайды]) | * Визуализация данных ([https://disk.yandex.ru/d/UnB4OblNMloLKg слайды]) | ||
* Разбор квиза по визуализации ([https://disk.yandex.ru/i/KIWSbUCwLC9Oaw видео]) | * Разбор квиза по визуализации ([https://disk.yandex.ru/i/KIWSbUCwLC9Oaw видео]) | ||
+ | |||
+ | == Домашние задания == | ||
+ | |||
+ | * [https://github.com/allatambov/PyPerm25/blob/main/hw01.ipynb Домашнее задание №1], дедлайн 17 мая 23:59 (по Перми) | ||
+ | * Домашнее задание №2 | ||
+ | * Домашнее задание №3 |
Текущая версия на 01:56, 1 мая 2025
Дорогие студенты!
Это страница обязательного курса «Анализ данных на Python», читаемого на программе «Разработка информационных систем для бизнеса»
2 курса бакалавриата в 4 модуле 2024-2025 учебного года.
Занятия ведут: Николаев Ян Андреевич, Тамбовцева Алла Андреевна.
Содержание
- 1 Правила игры
- 2 Среда для работы
- 3 Материалы курса
- 3.1 Неделя 0. Про Python и Jupyter Notebook
- 3.2 Неделя 1. Шкалы данных. Индексируемые структуры данных
- 3.3 Самостоятельное изучение 1
- 3.4 Неделя 2. Проверка статистических гипотез. Массивы NumPy
- 3.5 Самостоятельное изучение 2
- 3.6 Неделя 3. Словари и датафреймы Pandas
- 3.7 Неделя 4. Введение в визуализацию
- 4 Домашние задания
Правила игры
Формула оценки: 0.6 × ДЗ + 0.15 × Активность + 0.25 × Тест.
Пояснения:
- ДЗ: мини-проекты, посвященные анализу и визуализации данных, а также сбору и обработке данных.
- Активность: участие в квизах, опросах и групповых заданиях на семинарах.
- Тест: итоговый тест с закрытыми и открытыми вопросами по обработке, визуализации и анализу данных.
- Домашние задания, сданные после срока, оцениваются с использованием понижающих коэффициентов:
опоздание в пределах часа – штраф 10% от оценки, в пределах суток – штраф 30%.
Домашние задания, сданные позже, не принимаются и не оцениваются.
Среда для работы
Писать код Python на занятиях и рамках домашних заданий можно в любой среде (PyCharm, Jupyter Notebook, VS и другие).
На занятиях мы будем демонстрировать работу в Jupyter Notebook и PyCharm. Конспекты занятий с кодом будут опубликованы в виде ipynb-файлов на Github. Читать их можно онлайн, открывать с возможностью редактировать – преимущественно через Jupyter Notebook (в PyCharm их поддерживает только платная версия Professional).
- Если вы планируете работать в Jupyter Notebook, проще всего установить дистрибутив Anaconda (скачать можно здесь), который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также среду разработки Jupyter Notebook. Также есть возможность работать в Jupyter Notebook онлайн, используя ресурс Google Colab (для создания и редактирования файлов нужен аккаунт Gmail). Подробности по работе – см. ниже в неделе 0.
- Если вы планируете работать в PyCharm, эту среду можно скачать по ссылке, бесплатная версия Community.
Материалы курса
Неделя 0. Про Python и Jupyter Notebook
- Запуск Jupyter без Anaconda Navigator (инструкция).
- Работа в Jupyter Notebook (видео), отличия Google Colab от Jupyter (видео).
Дополнительно:
Неделя 1. Шкалы данных. Индексируемые структуры данных
- Шкалы данных (слайды).
- Индексируемые структуры данных (конспект ipynb, код py).
- Визуализатор кода от Pythontutor.
Самостоятельное изучение 1
Неделя 2. Проверка статистических гипотез. Массивы NumPy
Обратите внимание: внесены правки в слайды, чтобы логика вычисления статистик совпадала
с тем, что принято в функциях Python
и общей практике (первая доля минус вторая, не наоборот).
Левосторонняя альтернатива H0: p1 < p2, правосторонняя – H1: p1 > p2.
- Проверка статистических гипотез (слайды)
- Примеры статистических тестов и массивы NumPy (конспект ipynb, код py)
- Выбор статистических тестов для разных задач (ipynb)
Дополнительно:
- Выборочное оценивание (слайды)
- Памятка по описательным статистикам – тут можно почитать поподробнее про ящик с усами.
Самостоятельное изучение 2
- Еще немного про списки vs массивы: ipynb
Неделя 3. Словари и датафреймы Pandas
- Словарь, Pandas Series, Pandas DataFrame (конспект ipynb)
- Работа с датафреймами: часть 1 (конспект ipynb, данные ab_testing.csv.csv)
- Работа с датафреймами: часть 2 (конспект ipynb, данные hseteachers.csv)
Дополнительно:
- Палитра цветов: coolors.co
- Про дату время в Python: документация
- API ВКонтакте: документация, инструкция по получению доступа, пример выгрузки постов (ipynb)
Неделя 4. Введение в визуализацию
Домашние задания
- Домашнее задание №1, дедлайн 17 мая 23:59 (по Перми)
- Домашнее задание №2
- Домашнее задание №3