Основы работы с количественными данными: различия между версиями

Материал из MathINFO
Перейти к навигации Перейти к поиску
 
(не показано 5 промежуточных версий этого же участника)
Строка 78: Строка 78:
 
=== Неделя 7. Проверка гипотез. Меры связи: коэффициенты корреляции ===
 
=== Неделя 7. Проверка гипотез. Меры связи: коэффициенты корреляции ===
  
* Меры связи: коэффициенты корреляции (слайды).
+
* Меры связи: коэффициенты корреляции ([https://disk.yandex.ru/i/Pc_xhymEZqn7Yw слайды]).
* Практикум 6-7. Проверка гипотез, коэффициенты корреляции ([https://github.com/allatambov/QuantDat24/blob/main/Diet.csv Diet.csv]).
+
* Практикум 6-7. Проверка гипотез, коэффициенты корреляции ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice06-07.ipynb ipynb], [https://github.com/allatambov/QuantDat24/blob/main/Diet.csv Diet.csv]).
 +
 
 +
Дополнительно:
 +
 
 +
* Проверка гипотез о сравнении групп, сводный [https://github.com/allatambov/PyPerm24/blob/main/09-info-tests.ipynb файл] с функциями.
 +
* Выявление связей в качественных данных: таблицы сопряженности и критерий хи-квадрат ([https://disk.yandex.ru/i/0T9TI6aVvLSdGA слайды]).
 +
* Игра на угадывание коэффициента Пирсона по диаграмме рассеивания: [https://www.guessthecorrelation.com/ Guess The Correlation]
  
 
== Домашние задания ==
 
== Домашние задания ==
Строка 93: Строка 99:
 
| Домашнее задание 3 ([https://disk.yandex.ru/d/oiobvw5uHm_3sg варианты])|| 20.10 23:59 || [https://www.dropbox.com/request/Be0oRRYQ0U5JFAVLEjsI ссылка]
 
| Домашнее задание 3 ([https://disk.yandex.ru/d/oiobvw5uHm_3sg варианты])|| 20.10 23:59 || [https://www.dropbox.com/request/Be0oRRYQ0U5JFAVLEjsI ссылка]
 
|-
 
|-
| Домашнее задание 4 (варианты)|| - || -
+
| Домашнее задание 4 ([https://disk.yandex.ru/d/Y-plyQp8dG_goQ варианты], [https://github.com/allatambov/QuantDat24/blob/main/games.csv games.csv])|| 25.10 16:00 || [https://www.dropbox.com/request/hac3uL2uHXqhPrxruDpH ссылка]
 
|}
 
|}
 +
 +
== Экзамен ==
 +
 +
Варианты и данные: [https://disk.yandex.ru/d/EOGoV-jbI-AlHw ссылка].

Текущая версия на 18:40, 25 октября 2024

Дорогие студенты!

Это страница обязательного курса «Основы работы с количественными данными», читаемого на программе
«Коммуникации в государственных структурах и НКО» 1 курса магистратуры в 1 модуле 2024-2025 учебного года.

Занятия ведёт: Тамбовцева Алла Андреевна.

Правила игры

  • Формула оценки: Итог = 0.48 * ДЗ + 0.2 * Проверочные работы + 0.32 * Экзамен.
  • Программа курса, организационная презентация.
  • Домашние задания, сданные позже дедлайна, оцениваются со штрафом:
    в пределах часа – 10% от оценки, суток – 30%, недели – 60%.

Программное обеспечение

На этом курсе для практической работы с данными мы используем язык Python и среду Jupyter Notebook (или ее облачный аналог Google Colab).
Для создания и редактирования файлов в Google Colab ничего устанавливать не нужно, но нужно иметь аккаунт Google (Gmail).

Для работы в Jupyter Notebook на своем компьютере, а не в облачной среде, удобнее всего установить дистрибутив Anaconda (скачать можно здесь),
который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также саму среду Jupyter Notebook.

Установка Anaconda и работа в Jupyter Notebook и Google Colab

Дополнительно для желающих:

Материалы

Неделя 1. Шкалы данных. Введение в Python

  • Шкалы данных (слайды). Введение в Python (ipynb).
  • Практикум 1: переменные и проверка условий (ipynb), решения (ipynb).

Дополнительно (для желающих узнать больше о Python):

  • Вычисления, переменные, типы данных в Python (ipynb).
  • Ввод и вывод, форматирование строк (ipynb). Условные конструкции (ipynb).
  • Документация библиотеки sympy для решения уравнений и других вычислений.

Неделя 2. Описание данных. Числовые массивы в Python

  • Описательные статистики (слайды). Последовательности в Python: строки, списки, массивы (ipynb).
  • Практикум 2. Описательные статистики (ipynb), решения (ipynb).

Неделя 3. Визуализация количественных данных. Датафреймы Pandas

  • Принципы визуализации. Визуализация количественных данных (слайды).
  • Практикум 3. Описание и визуализация количественных данных (ipynb, salaries.csv), решения (ipynb).

Неделя 4. Визуализация количественных и качественных данных

  • Практикум 4.1. Обработка и визуализация количественных данных (ipynb, charity_data.csv), решения (ipynb).

Дополнительно:

  • Названия готовых цветов, поддерживаемые в Python: документация.
  • Названия цветов от colorscheme.ru с кодами HTML: каталог.
  • Источники готовых палитр сочетаемых цветов: Color Hunt, Coolors.
  • Практикум 4.2. Обработка и визуализация качественных данных (ipynb, NPK_24_last.xlsx), ещё не разбирали.

Неделя 5. Выборочное оценивание и доверительные интервалы

  • Выборочное оценивание и доверительные интервалы (слайды).
  • Полезная визуализация для доверительных интервалов (ссылка).

Неделя 6. Доверительные интервалы и проверка гипотез

  • Введение в проверку статистических гипотез (слайды).
  • Практикум 5-6. Доверительные интервалы и проверка гипотез (ipynb, sentiment.csv), решения (ipynb).

Дополнительно:

  • Памятка по доверительным интервалам.
  • Памятка по проверке гипотез (не только чрез p-value).

Неделя 7. Проверка гипотез. Меры связи: коэффициенты корреляции

  • Меры связи: коэффициенты корреляции (слайды).
  • Практикум 6-7. Проверка гипотез, коэффициенты корреляции (ipynb, Diet.csv).

Дополнительно:

  • Проверка гипотез о сравнении групп, сводный файл с функциями.
  • Выявление связей в качественных данных: таблицы сопряженности и критерий хи-квадрат (слайды).
  • Игра на угадывание коэффициента Пирсона по диаграмме рассеивания: Guess The Correlation

Домашние задания

Домашнее задание Дедлайн Куда сдавать
Домашнее задание 1 (варианты) 25.09 23:59 ссылка
Домашнее задание 2 (варианты, wgidataset.csv) 09.10 23:59 ссылка
Домашнее задание 3 (варианты) 20.10 23:59 ссылка
Домашнее задание 4 (варианты, games.csv) 25.10 16:00 ссылка

Экзамен

Варианты и данные: ссылка.