Основы работы с количественными данными: различия между версиями

Материал из MathINFO
Перейти к навигации Перейти к поиску
 
(не показано 6 промежуточных версий этого же участника)
Строка 70: Строка 70:
 
=== Занятие 6. Меры связей. Критерий хи-квадрат и коэффициенты корреляции. ===
 
=== Занятие 6. Меры связей. Критерий хи-квадрат и коэффициенты корреляции. ===
  
* Меры связи (слайды).  
+
* Меры связи: критерий хи-квадрат ([https://www.dropbox.com/scl/fi/hogprdatw73wgqu7gvl37/08.pdf?rlkey=8sz3lw2asg3c3bn555vft3bop&dl=0 слайды]).
* Практикум 6. Выявление связей в качественных и количественных данных (ipynb, [https://www.dropbox.com/scl/fi/q1k15nwjpboif45oi6jv2/NPK_final-2.xlsx?rlkey=da85eluqzigrchejgnjq9o33l&dl=0 NPK_final 2.xlsx], [https://www.dropbox.com/scl/fi/8qhjgfit3mucaxtx7ck4l/flats.csv?rlkey=vfym0gova9x16rket70t5wj7d&dl=0 flats.csv]).
+
* Меры связи: коэффициенты корреляции ([https://www.dropbox.com/scl/fi/07l7a6i7nio6gp295sdid/08.pdf?rlkey=kwv6zz33n9gqmy8pmh0xg46zv&dl=0 слайды]).
 +
* [https://www.guessthecorrelation.com/ Игра] Guess The Correlation.
 +
* Практикум 6. Выявление связей в качественных и количественных данных ([https://github.com/allatambov/QuantData23/blob/main/qd_practice06.ipynb читать], [https://www.dropbox.com/scl/fi/y7ie7grvay6fk86f80lum/qd_practice06.ipynb?rlkey=mo0k3ddo8ramo5oyo4jt0v11w&dl=0 ipynb], [https://www.dropbox.com/scl/fi/q1k15nwjpboif45oi6jv2/NPK_final-2.xlsx?rlkey=da85eluqzigrchejgnjq9o33l&dl=0 NPK_final 2.xlsx], [https://www.dropbox.com/scl/fi/8qhjgfit3mucaxtx7ck4l/flats.csv?rlkey=vfym0gova9x16rket70t5wj7d&dl=0 flats.csv]).
 +
 
 +
=== Занятие 7. Иерархический кластерный анализ. ===
 +
 
 +
* Практикум 7. Иерархический кластерный анализ ([https://www.dropbox.com/scl/fi/ktaa3825hfv4vuytsi1f4/qd-practice07.ipynb?rlkey=lwp71qowucmx2om5dvon0w20d&dl=0 ipynb], [https://www.dropbox.com/scl/fi/9mjjz89faacecg1dewqpe/BaltimoreCrimesAgg.csv?rlkey=ol9tdxaa33nhtlcyur4fhkiu4&dl=0 BaltimoreCrimesAgg.csv])
  
 
== Домашние задания ==
 
== Домашние задания ==
Строка 85: Строка 91:
 
| [https://github.com/allatambov/QuantData23/blob/main/hw03.ipynb Домашнее задание 3] || [https://www.dropbox.com/scl/fi/0eo3daclu3npfrxriao3h/hw03.ipynb?rlkey=7u3f6m9ytexbxvfd6fzfzvkob&dl=0 ipynb] [https://www.dropbox.com/scl/fi/ub2b6t2hv9qaj24bzopf9/Tabellini.xlsx?rlkey=4fpmlzd76xeisvvdnbv60hgjq&dl=0 Tabellini.xlsx] || 15.10 23:59|| [https://www.dropbox.com/request/kfqJMrutsipaWTkNuTKr ссылка]
 
| [https://github.com/allatambov/QuantData23/blob/main/hw03.ipynb Домашнее задание 3] || [https://www.dropbox.com/scl/fi/0eo3daclu3npfrxriao3h/hw03.ipynb?rlkey=7u3f6m9ytexbxvfd6fzfzvkob&dl=0 ipynb] [https://www.dropbox.com/scl/fi/ub2b6t2hv9qaj24bzopf9/Tabellini.xlsx?rlkey=4fpmlzd76xeisvvdnbv60hgjq&dl=0 Tabellini.xlsx] || 15.10 23:59|| [https://www.dropbox.com/request/kfqJMrutsipaWTkNuTKr ссылка]
 
|-
 
|-
| Домашнее задание 4 || || ||  
+
| [https://github.com/allatambov/QuantData23/blob/main/hw04.ipynb Домашнее задание 4] || [https://www.dropbox.com/scl/fi/e88pkhlqqm2106xbtiebm/hw04.ipynb?rlkey=q64hs0lsmo4upz9tbewskzetk&dl=0 ipynb] [https://www.dropbox.com/scl/fi/7g5ojyoysvgzutlvawwea/coffee_and_code.csv?rlkey=tixvu8k2e9n7tt9wc84ekvoed&dl=0 coffee_and_code.csv] || 24.10 23:59 || [https://www.dropbox.com/request/1MCJWmVZxX0ObkAJkcty ссылка]
 
|}
 
|}
 +
 +
== Практическая часть экзамена ==
 +
 +
* [https://www.dropbox.com/scl/fi/ekoogpv6vdaeeia31gkad/nko-exam-v2.ipynb?rlkey=7irkzwxrfh8tk4vluj4lqzqua&dl=0 ipynb], [https://www.dropbox.com/scl/fi/6m7zdmo7zc9zj059nlscj/beasts.csv?rlkey=qnsjaazris8licsgw1pq0bwwj&dl=0 csv].

Текущая версия на 18:59, 27 октября 2023

Дорогие студенты!

Это страница обязательного курса «Основы работы с количественными данными», читаемого на программе
«Коммуникации в государственных структурах и НКО» 1 курса магистратуры в 1 модуле 2023-2024 учебного года.

Занятия ведёт: Тамбовцева Алла Андреевна.

Правила игры

  • Формула оценки: Итог = 0.5 * Домашние задания + 0.2 * Самостоятельная работа + 0.3 * Экзамен.
  • Программа курса, организационная презентация.
  • Домашние задания, сданные позже дедлайна, оцениваются со штрафом:
    в пределах часа – 10% от оценки, суток – 30%, недели – 60%.

Программное обеспечение

На этом курсе для практической работы с данными мы используем язык Python и среду Jupyter Notebook (ее облачную версию Google Colab). Для создания и редактирования файлов в Google Colab ничего устанавливать не нужно, но нужно иметь аккаунт Google (Gmail).

Если вы хотите работать в Jupyter Notebook локально, на своем компьютере, а не в облачной среде, удобнее всего установить дистрибутив Anaconda (скачать можно здесь), который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также саму среду Jupyter Notebook.

Работа в Google Colab:

  • Создание файлов и запуск кода в Google Colab: видео.
  • Загрузка и выгрузка файлов в Google Colab: видео.

Установка Anaconda и запуск Jupyter Notebook:

  • Для установки Anaconda нужно скачать установочный файл для своей системы отсюда, запустить его и следовать инструкциям.
  • Среду Jupyter Notebook можно запускать через приложение Anaconda Navigator (находим Anaconda Navigator в списке программ, запускаем, кликаем на кнопку Launch под Jupyter Notebook) и отдельно от него (см. инструкцию).

Подробнее про работу в Jupyter Notebook и Google Colab:

Для тех, кто не работал в Python и Jupyter: можно записаться на вышкинский онлайн-курс «Python как иностранный» (открыт для записи в SmartLMS). Для подготовки рабочего места рекомендуется ознакомиться со следующими материалами в теме 1: Видео. Подготовка рабочего места, инструкция по открытию файлов в Jupyter Notebook, Видео. Первая программа, Задачи для тренировки.

Материалы

Занятие 1. Введение в работу с данными. Описание данных.

  • Введение в выборочные обследования (слайды). Шкалы данных (слайды).
  • Описание данных: часть 1 (слайды).
  • Практикум 1. Введение в работу с данными (читать, ipynb).

Занятие 2. Описание данных. Визуализация данных.

  • Описание данных: часть 2 (слайды). Визуализация количественных данных (слайды).
  • Практикум 2. Описание и визуализация данных (читать, ipynb, файл flats.csv).

Дополнительно:

Занятие 3. Визуализация данных. Введение в выборочное оценивание.

  • Практикум 3. Группировка, агрегирование и визуализация с pandas (читать, ipynb, файл CPI_FH.xlsx).
  • Введение в выборочное оценивание (слайды).

Занятие 4. Доверительные интервалы.

  • Доверительные интервалы для доли и среднего (слайды, визуализация).
  • Практикум 4. Доверительные интервалы на примере массивов, описание и визуализация опросных данных (читать, ipynb, файл NPK.xlsx).

Занятие 5. Проверка статистических гипотез. Гипотезы о доле и среднем.

  • Проверка статистических гипотез (слайды).
  • Практикум 5. Проверка гипотез о долях и средних (читать, ipynb).

Занятие 6. Меры связей. Критерий хи-квадрат и коэффициенты корреляции.

Занятие 7. Иерархический кластерный анализ.

Домашние задания

Домашнее задание Файлы Дедлайн Куда сдавать
Домашнее задание 1 ipynb 24.09 23:59 ссылка
Домашнее задание 2 ipynb wgidataset.xlsx 05.10 23:59 ссылка
Домашнее задание 3 ipynb Tabellini.xlsx 15.10 23:59 ссылка
Домашнее задание 4 ipynb coffee_and_code.csv 24.10 23:59 ссылка

Практическая часть экзамена