Основы работы с количественными данными: различия между версиями

Материал из MathINFO
Перейти к навигации Перейти к поиску
 
(не показана 31 промежуточная версия этого же участника)
Строка 13: Строка 13:
 
== Программное обеспечение ==
 
== Программное обеспечение ==
  
На этом курсе для практической работы с данными мы используем язык Python и среду Jupyter Notebook (или ее облачный аналог [https://colab.research.google.com/ Google Colab]). Для создания и редактирования файлов в Google Colab ничего устанавливать не нужно, но нужно иметь аккаунт Google (Gmail).  
+
На этом курсе для практической работы с данными мы используем язык Python и среду Jupyter Notebook (или ее облачный аналог [https://colab.research.google.com/ Google Colab]).<br>Для создания и редактирования файлов в Google Colab ничего устанавливать не нужно, но нужно иметь аккаунт Google (Gmail).  
  
Для работы в Jupyter Notebook на своем компьютере, а не в облачной среде, удобнее всего установить дистрибутив '''Anaconda''' (скачать можно [https://www.anaconda.com/download здесь]), который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также саму среду Jupyter Notebook.
+
Для работы в Jupyter Notebook на своем компьютере, а не в облачной среде, удобнее всего установить дистрибутив '''Anaconda''' (скачать можно [https://www.anaconda.com/download здесь]),<br>который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также саму среду Jupyter Notebook.
  
 
'''Установка Anaconda и работа в Jupyter Notebook и Google Colab'''
 
'''Установка Anaconda и работа в Jupyter Notebook и Google Colab'''
Строка 42: Строка 42:
 
=== Неделя 2. Описание данных. Числовые массивы в Python  ===
 
=== Неделя 2. Описание данных. Числовые массивы в Python  ===
  
* Описательные статистики (слайды). Последовательности в Python: строки, списки, массивы (ipynb).
+
* Описательные статистики ([https://disk.yandex.ru/i/0RsxovCpKLUcBw слайды]). Последовательности в Python: строки, списки, массивы ([https://github.com/allatambov/QuantDat24/blob/main/qd-02-lists-arrays.ipynb ipynb]).
* Практикум 2. Описательные статистики (ipynb).
+
* Практикум 2. Описательные статистики ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice02.ipynb ipynb]), решения ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice02-solutions.ipynb ipynb]).
 +
 
 +
=== Неделя 3. Визуализация количественных данных. Датафреймы Pandas ===
 +
 
 +
* Принципы визуализации. Визуализация количественных данных ([https://disk.yandex.ru/i/8iiTKQ7pm41Khw слайды]).
 +
* Практикум 3. Описание и визуализация количественных данных ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice03.ipynb ipynb], [https://github.com/allatambov/QuantDat24/blob/main/salaries.csv salaries.csv]), решения ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice03-solutions.ipynb ipynb]).
 +
 
 +
=== Неделя 4. Визуализация количественных и качественных данных ===
 +
 
 +
* Практикум 4.1. Обработка и визуализация количественных данных ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice04-01.ipynb ipynb], [https://github.com/allatambov/QuantDat24/blob/main/charity_data.csv charity_data.csv]), решения ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice04-01-solutions.ipynb ipynb]).
 +
 
 +
Дополнительно:
 +
 
 +
* Названия готовых цветов, поддерживаемые в Python: [https://matplotlib.org/stable/gallery/color/named_colors.html документация].
 +
* Названия цветов от colorscheme.ru с кодами HTML: [https://colorscheme.ru/color-names.html каталог].
 +
* Источники готовых палитр сочетаемых цветов: [https://colorhunt.co/ Color Hunt], [https://coolors.co/palettes/trending Coolors].
 +
* Практикум 4.2. Обработка и визуализация качественных данных ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice04-02.ipynb ipynb], [https://github.com/allatambov/QuantDat24/blob/main/NPK_24_last.xlsx NPK_24_last.xlsx]), ещё не разбирали.
 +
 
 +
=== Неделя 5. Выборочное оценивание и доверительные интервалы ===
 +
 
 +
* Выборочное оценивание и доверительные интервалы ([https://disk.yandex.ru/d/Ag3JV_hwTAFgYQ слайды]).
 +
* Полезная визуализация для доверительных интервалов ([https://rpsychologist.com/d3/ci/ ссылка]).
 +
 
 +
=== Неделя 6. Доверительные интервалы и проверка гипотез ===
 +
 
 +
* Введение в проверку статистических гипотез ([https://disk.yandex.ru/i/fuq0agKo7ht1ig слайды]).
 +
* Практикум 5-6. Доверительные интервалы и проверка гипотез ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice05-06.ipynb ipynb], [https://github.com/allatambov/QuantDat24/blob/main/sentiment.csv sentiment.csv]), решения ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice05-06-solutions.ipynb ipynb]).
 +
 
 +
Дополнительно:
 +
 
 +
* [https://disk.yandex.ru/i/6OwGNf27CsRCgA Памятка] по доверительным интервалам.
 +
* [https://allatambov.github.io/twimc22/hypo.pdf Памятка] по проверке гипотез (не только чрез p-value).
 +
 
 +
=== Неделя 7. Проверка гипотез. Меры связи: коэффициенты корреляции ===
 +
 
 +
* Меры связи: коэффициенты корреляции ([https://disk.yandex.ru/i/Pc_xhymEZqn7Yw слайды]).
 +
* Практикум 6-7. Проверка гипотез, коэффициенты корреляции ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice06-07.ipynb ipynb], [https://github.com/allatambov/QuantDat24/blob/main/Diet.csv Diet.csv]).
 +
 
 +
Дополнительно:
 +
 
 +
* Проверка гипотез о сравнении групп, сводный [https://github.com/allatambov/PyPerm24/blob/main/09-info-tests.ipynb файл] с функциями.
 +
* Выявление связей в качественных данных: таблицы сопряженности и критерий хи-квадрат ([https://disk.yandex.ru/i/0T9TI6aVvLSdGA слайды]).
 +
* Игра на угадывание коэффициента Пирсона по диаграмме рассеивания: [https://www.guessthecorrelation.com/ Guess The Correlation]
 +
 
 +
== Домашние задания ==
 +
 
 +
{| class="wikitable"
 +
|-
 +
! Домашнее задание !! Дедлайн !! Куда сдавать
 +
|-
 +
| Домашнее задание 1 ([https://disk.yandex.ru/d/NZS8AeqQg09Hmg варианты]) || 25.09 23:59 || [https://www.dropbox.com/request/WhbFDjz7BN0zb273pPls ссылка]
 +
|-
 +
| Домашнее задание 2 ([https://disk.yandex.ru/d/wAU5ItSo8Y0pdw варианты], [https://github.com/allatambov/QuantDat24/blob/main/wgidataset.csv wgidataset.csv])|| 09.10 23:59 || [https://www.dropbox.com/request/IwzkrNlAB5kN7EmCukzA ссылка]
 +
|-
 +
| Домашнее задание 3 ([https://disk.yandex.ru/d/oiobvw5uHm_3sg варианты])|| 20.10 23:59 || [https://www.dropbox.com/request/Be0oRRYQ0U5JFAVLEjsI ссылка]
 +
|-
 +
| Домашнее задание 4 ([https://disk.yandex.ru/d/Y-plyQp8dG_goQ варианты], [https://github.com/allatambov/QuantDat24/blob/main/games.csv games.csv])|| 25.10 16:00 || [https://www.dropbox.com/request/hac3uL2uHXqhPrxruDpH ссылка]
 +
|}
 +
 
 +
== Экзамен ==
 +
 
 +
Варианты и данные: [https://disk.yandex.ru/d/EOGoV-jbI-AlHw ссылка].

Текущая версия на 18:40, 25 октября 2024

Дорогие студенты!

Это страница обязательного курса «Основы работы с количественными данными», читаемого на программе
«Коммуникации в государственных структурах и НКО» 1 курса магистратуры в 1 модуле 2024-2025 учебного года.

Занятия ведёт: Тамбовцева Алла Андреевна.

Правила игры

  • Формула оценки: Итог = 0.48 * ДЗ + 0.2 * Проверочные работы + 0.32 * Экзамен.
  • Программа курса, организационная презентация.
  • Домашние задания, сданные позже дедлайна, оцениваются со штрафом:
    в пределах часа – 10% от оценки, суток – 30%, недели – 60%.

Программное обеспечение

На этом курсе для практической работы с данными мы используем язык Python и среду Jupyter Notebook (или ее облачный аналог Google Colab).
Для создания и редактирования файлов в Google Colab ничего устанавливать не нужно, но нужно иметь аккаунт Google (Gmail).

Для работы в Jupyter Notebook на своем компьютере, а не в облачной среде, удобнее всего установить дистрибутив Anaconda (скачать можно здесь),
который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также саму среду Jupyter Notebook.

Установка Anaconda и работа в Jupyter Notebook и Google Colab

Дополнительно для желающих:

Материалы

Неделя 1. Шкалы данных. Введение в Python

  • Шкалы данных (слайды). Введение в Python (ipynb).
  • Практикум 1: переменные и проверка условий (ipynb), решения (ipynb).

Дополнительно (для желающих узнать больше о Python):

  • Вычисления, переменные, типы данных в Python (ipynb).
  • Ввод и вывод, форматирование строк (ipynb). Условные конструкции (ipynb).
  • Документация библиотеки sympy для решения уравнений и других вычислений.

Неделя 2. Описание данных. Числовые массивы в Python

  • Описательные статистики (слайды). Последовательности в Python: строки, списки, массивы (ipynb).
  • Практикум 2. Описательные статистики (ipynb), решения (ipynb).

Неделя 3. Визуализация количественных данных. Датафреймы Pandas

  • Принципы визуализации. Визуализация количественных данных (слайды).
  • Практикум 3. Описание и визуализация количественных данных (ipynb, salaries.csv), решения (ipynb).

Неделя 4. Визуализация количественных и качественных данных

  • Практикум 4.1. Обработка и визуализация количественных данных (ipynb, charity_data.csv), решения (ipynb).

Дополнительно:

  • Названия готовых цветов, поддерживаемые в Python: документация.
  • Названия цветов от colorscheme.ru с кодами HTML: каталог.
  • Источники готовых палитр сочетаемых цветов: Color Hunt, Coolors.
  • Практикум 4.2. Обработка и визуализация качественных данных (ipynb, NPK_24_last.xlsx), ещё не разбирали.

Неделя 5. Выборочное оценивание и доверительные интервалы

  • Выборочное оценивание и доверительные интервалы (слайды).
  • Полезная визуализация для доверительных интервалов (ссылка).

Неделя 6. Доверительные интервалы и проверка гипотез

  • Введение в проверку статистических гипотез (слайды).
  • Практикум 5-6. Доверительные интервалы и проверка гипотез (ipynb, sentiment.csv), решения (ipynb).

Дополнительно:

  • Памятка по доверительным интервалам.
  • Памятка по проверке гипотез (не только чрез p-value).

Неделя 7. Проверка гипотез. Меры связи: коэффициенты корреляции

  • Меры связи: коэффициенты корреляции (слайды).
  • Практикум 6-7. Проверка гипотез, коэффициенты корреляции (ipynb, Diet.csv).

Дополнительно:

  • Проверка гипотез о сравнении групп, сводный файл с функциями.
  • Выявление связей в качественных данных: таблицы сопряженности и критерий хи-квадрат (слайды).
  • Игра на угадывание коэффициента Пирсона по диаграмме рассеивания: Guess The Correlation

Домашние задания

Домашнее задание Дедлайн Куда сдавать
Домашнее задание 1 (варианты) 25.09 23:59 ссылка
Домашнее задание 2 (варианты, wgidataset.csv) 09.10 23:59 ссылка
Домашнее задание 3 (варианты) 20.10 23:59 ссылка
Домашнее задание 4 (варианты, games.csv) 25.10 16:00 ссылка

Экзамен

Варианты и данные: ссылка.