Основы работы с количественными данными
Дорогие студенты!
Это страница обязательного курса «Основы работы с количественными данными», читаемого на программе
«Коммуникации в государственных структурах и НКО» 1 курса магистратуры в 1 модуле 2024-2025 учебного года.
Занятия ведёт: Тамбовцева Алла Андреевна.
Содержание
- 1 Правила игры
- 2 Программное обеспечение
- 3 Материалы
- 3.1 Неделя 1. Шкалы данных. Введение в Python
- 3.2 Неделя 2. Описание данных. Числовые массивы в Python
- 3.3 Неделя 3. Визуализация количественных данных. Датафреймы Pandas
- 3.4 Неделя 4. Визуализация количественных и качественных данных
- 3.5 Неделя 5. Выборочное оценивание и доверительные интервалы
- 3.6 Неделя 6. Доверительные интервалы и проверка гипотез
- 3.7 Неделя 7. Проверка гипотез. Меры связи: коэффициенты корреляции
- 4 Домашние задания
- 5 Экзамен
Правила игры
- Формула оценки: Итог = 0.48 * ДЗ + 0.2 * Проверочные работы + 0.32 * Экзамен.
- Программа курса, организационная презентация.
- Домашние задания, сданные позже дедлайна, оцениваются со штрафом:
в пределах часа – 10% от оценки, суток – 30%, недели – 60%.
Программное обеспечение
На этом курсе для практической работы с данными мы используем язык Python и среду Jupyter Notebook (или ее облачный аналог Google Colab).
Для создания и редактирования файлов в Google Colab ничего устанавливать не нужно, но нужно иметь аккаунт Google (Gmail).
Для работы в Jupyter Notebook на своем компьютере, а не в облачной среде, удобнее всего установить дистрибутив Anaconda (скачать можно здесь),
который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также саму среду Jupyter Notebook.
Установка Anaconda и работа в Jupyter Notebook и Google Colab
- Материалы онлайн-курса (доступен всем в SmartLMS): подготовка рабочего места, инструкция по открытию файлов в Jupyter.
- Запуск Jupyter без Anaconda Navigator (инструкция).
- Работа в Jupyter Notebook (видео), отличия Google Colab от Jupyter (видео).
Дополнительно для желающих:
Материалы
Неделя 1. Шкалы данных. Введение в Python
- Шкалы данных (слайды). Введение в Python (ipynb).
- Практикум 1: переменные и проверка условий (ipynb), решения (ipynb).
Дополнительно (для желающих узнать больше о Python):
- Вычисления, переменные, типы данных в Python (ipynb).
- Ввод и вывод, форматирование строк (ipynb). Условные конструкции (ipynb).
- Документация библиотеки sympy для решения уравнений и других вычислений.
Неделя 2. Описание данных. Числовые массивы в Python
- Описательные статистики (слайды). Последовательности в Python: строки, списки, массивы (ipynb).
- Практикум 2. Описательные статистики (ipynb), решения (ipynb).
Неделя 3. Визуализация количественных данных. Датафреймы Pandas
- Принципы визуализации. Визуализация количественных данных (слайды).
- Практикум 3. Описание и визуализация количественных данных (ipynb, salaries.csv), решения (ipynb).
Неделя 4. Визуализация количественных и качественных данных
- Практикум 4.1. Обработка и визуализация количественных данных (ipynb, charity_data.csv), решения (ipynb).
Дополнительно:
- Названия готовых цветов, поддерживаемые в Python: документация.
- Названия цветов от colorscheme.ru с кодами HTML: каталог.
- Источники готовых палитр сочетаемых цветов: Color Hunt, Coolors.
- Практикум 4.2. Обработка и визуализация качественных данных (ipynb, NPK_24_last.xlsx), ещё не разбирали.
Неделя 5. Выборочное оценивание и доверительные интервалы
- Выборочное оценивание и доверительные интервалы (слайды).
- Полезная визуализация для доверительных интервалов (ссылка).
Неделя 6. Доверительные интервалы и проверка гипотез
- Введение в проверку статистических гипотез (слайды).
- Практикум 5-6. Доверительные интервалы и проверка гипотез (ipynb, sentiment.csv), решения (ipynb).
Дополнительно:
Неделя 7. Проверка гипотез. Меры связи: коэффициенты корреляции
- Меры связи: коэффициенты корреляции (слайды).
- Практикум 6-7. Проверка гипотез, коэффициенты корреляции (ipynb, Diet.csv).
Дополнительно:
- Проверка гипотез о сравнении групп, сводный файл с функциями.
- Выявление связей в качественных данных: таблицы сопряженности и критерий хи-квадрат (слайды).
- Игра на угадывание коэффициента Пирсона по диаграмме рассеивания: Guess The Correlation
Домашние задания
Домашнее задание | Дедлайн | Куда сдавать |
---|---|---|
Домашнее задание 1 (варианты) | 25.09 23:59 | ссылка |
Домашнее задание 2 (варианты, wgidataset.csv) | 09.10 23:59 | ссылка |
Домашнее задание 3 (варианты) | 20.10 23:59 | ссылка |
Домашнее задание 4 (варианты, games.csv) | 25.10 16:00 | ссылка |
Экзамен
Варианты и данные: ссылка.