Анализ данных на Python: различия между версиями
Строка 48: | Строка 48: | ||
=== Неделя 2. Проверка статистических гипотез. Массивы NumPy === | === Неделя 2. Проверка статистических гипотез. Массивы NumPy === | ||
+ | |||
+ | ''Обратите внимание: внесла правки в слайды, чтобы логика вычисления статистик совпадала<br>с тем, что принято в функциях Python'' | ||
+ | ''и общей практике (первая доля минус вторая, не наоборот).<br>'' | ||
+ | ''Левосторонняя альтернатива H0: p1 < p2, правосторонняя – H1: p1 > p2.'' | ||
* Проверка статистических гипотез ([https://disk.yandex.ru/d/goVv-gUn-aId-Q слайды]) | * Проверка статистических гипотез ([https://disk.yandex.ru/d/goVv-gUn-aId-Q слайды]) | ||
− | * Примеры статистических тестов и массивы NumPy ([https://github.com/allatambov/PyPerm25/blob/main/02-stat-tests-upd.ipynb ipynb]) | + | * Примеры статистических тестов и массивы NumPy (конспект [https://github.com/allatambov/PyPerm25/blob/main/02-stat-tests-upd.ipynb ipynb], код [https://github.com/allatambov/PyPerm25/blob/main/02-stat-tests-upd.py py]) |
* Выбор статистических тестов для разных задач ([https://github.com/allatambov/PyPerm25/blob/main/info-tests.ipynb ipynb]) | * Выбор статистических тестов для разных задач ([https://github.com/allatambov/PyPerm25/blob/main/info-tests.ipynb ipynb]) | ||
Строка 56: | Строка 60: | ||
* Выборочное оценивание ([https://disk.yandex.ru/d/Tst4_4tXGBpScA слайды]) | * Выборочное оценивание ([https://disk.yandex.ru/d/Tst4_4tXGBpScA слайды]) | ||
+ | * [https://allatambov.github.io/twimc/descriptives.pdf Памятка] по описательным статистикам – тут можно почитать поподробнее про ящик с усами |
Версия 15:20, 12 апреля 2025
Дорогие студенты!
Это страница обязательного курса «Анализ данных на Python», читаемого на программе «Разработка информационных систем для бизнеса»
2 курса бакалавриата в 4 модуле 2024-2025 учебного года.
Занятия ведут: Николаев Ян Андреевич, Тамбовцева Алла Андреевна.
Содержание
Правила игры
Формула оценки: 0.6 × ДЗ + 0.15 × Активность + 0.25 × Тест.
Пояснения:
- ДЗ: мини-проекты, посвященные анализу и визуализации данных, а также сбору и обработке данных.
- Активность: участие в квизах, опросах и групповых заданиях на семинарах.
- Тест: итоговый тест с закрытыми и открытыми вопросами по обработке, визуализации и анализу данных.
- Домашние задания, сданные после срока, оцениваются с использованием понижающих коэффициентов:
опоздание в пределах часа – штраф 10% от оценки, в пределах суток – штраф 30%.
Домашние задания, сданные позже, не принимаются и не оцениваются.
Среда для работы
Писать код Python на занятиях и рамках домашних заданий можно в любой среде (PyCharm, Jupyter Notebook, VS и другие).
На занятиях мы будем демонстрировать работу в Jupyter Notebook и PyCharm. Конспекты занятий с кодом будут опубликованы в виде ipynb-файлов на Github. Читать их можно онлайн, открывать с возможностью редактировать – преимущественно через Jupyter Notebook (в PyCharm их поддерживает только платная версия Professional).
- Если вы планируете работать в Jupyter Notebook, проще всего установить дистрибутив Anaconda (скачать можно здесь), который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также среду разработки Jupyter Notebook. Также есть возможность работать в Jupyter Notebook онлайн, используя ресурс Google Colab (для создания и редактирования файлов нужен аккаунт Gmail). Подробности по работе – см. ниже в неделе 0.
- Если вы планируете работать в PyCharm, эту среду можно скачать по ссылке, бесплатная версия Community.
Материалы курса
Неделя 0. Про Python и Jupyter Notebook
- Запуск Jupyter без Anaconda Navigator (инструкция).
- Работа в Jupyter Notebook (видео), отличия Google Colab от Jupyter (видео).
Дополнительно:
Неделя 1. Шкалы данных. Индексируемые структуры данных
- Шкалы данных (слайды).
- Индексируемые структуры данных (конспект ipynb, код py).
- Визуализатор кода от Pythontutor.
Самостоятельное изучение 1
Неделя 2. Проверка статистических гипотез. Массивы NumPy
Обратите внимание: внесла правки в слайды, чтобы логика вычисления статистик совпадала
с тем, что принято в функциях Python
и общей практике (первая доля минус вторая, не наоборот).
Левосторонняя альтернатива H0: p1 < p2, правосторонняя – H1: p1 > p2.
- Проверка статистических гипотез (слайды)
- Примеры статистических тестов и массивы NumPy (конспект ipynb, код py)
- Выбор статистических тестов для разных задач (ipynb)
Дополнительно: