Основы работы с количественными данными: различия между версиями
(не показано 15 промежуточных версий этого же участника) | |||
Строка 37: | Строка 37: | ||
== Материалы == | == Материалы == | ||
− | === Введение в работу с данными. Описание данных. === | + | === Занятие 1. Введение в работу с данными. Описание данных. === |
* Введение в выборочные обследования ([https://www.dropbox.com/scl/fi/dxn7hjzgwstiaygv6j8f8/01.pdf?rlkey=fimbm6wl4tbcurayd1w5rwieq&dl=0 слайды]). Шкалы данных ([https://www.dropbox.com/scl/fi/uabwzsfx9d3wqpty5zuis/02.pdf?rlkey=x2tvvsx8j7gw9kqdhgs033ri9&dl=0 слайды]). | * Введение в выборочные обследования ([https://www.dropbox.com/scl/fi/dxn7hjzgwstiaygv6j8f8/01.pdf?rlkey=fimbm6wl4tbcurayd1w5rwieq&dl=0 слайды]). Шкалы данных ([https://www.dropbox.com/scl/fi/uabwzsfx9d3wqpty5zuis/02.pdf?rlkey=x2tvvsx8j7gw9kqdhgs033ri9&dl=0 слайды]). | ||
Строка 43: | Строка 43: | ||
* Практикум 1. Введение в работу с данными ([https://github.com/allatambov/QuantData23/blob/main/qd-practice01.ipynb читать], [https://www.dropbox.com/scl/fi/fy0t1iu4jho49fenlvvnv/qd-practice01.ipynb?rlkey=6nhf6ct07taxb7j1qb1rfrr1q&dl=0 ipynb]). | * Практикум 1. Введение в работу с данными ([https://github.com/allatambov/QuantData23/blob/main/qd-practice01.ipynb читать], [https://www.dropbox.com/scl/fi/fy0t1iu4jho49fenlvvnv/qd-practice01.ipynb?rlkey=6nhf6ct07taxb7j1qb1rfrr1q&dl=0 ipynb]). | ||
− | === Описание данных. Визуализация данных. === | + | === Занятие 2. Описание данных. Визуализация данных. === |
* Описание данных: часть 2 ([https://www.dropbox.com/scl/fi/t4c0j3hrrguq8cjh1scdv/03.pdf?rlkey=5g5egla5x0ki9o0jo6r4nu85p&dl=0 слайды]). Визуализация количественных данных ([https://www.dropbox.com/scl/fi/1d2cliqmjly22oq2o3xac/04.pdf?rlkey=c8ifdwf54q24czmzukxtmpubz&dl=0 слайды]). | * Описание данных: часть 2 ([https://www.dropbox.com/scl/fi/t4c0j3hrrguq8cjh1scdv/03.pdf?rlkey=5g5egla5x0ki9o0jo6r4nu85p&dl=0 слайды]). Визуализация количественных данных ([https://www.dropbox.com/scl/fi/1d2cliqmjly22oq2o3xac/04.pdf?rlkey=c8ifdwf54q24czmzukxtmpubz&dl=0 слайды]). | ||
Строка 53: | Строка 53: | ||
* [https://matplotlib.org/stable/gallery/color/named_colors.html Цвета] в Python, [https://g.co/kgs/shDZVq палитра] цветов от Google. | * [https://matplotlib.org/stable/gallery/color/named_colors.html Цвета] в Python, [https://g.co/kgs/shDZVq палитра] цветов от Google. | ||
− | === Визуализация данных. Введение в выборочное оценивание. === | + | === Занятие 3. Визуализация данных. Введение в выборочное оценивание. === |
* Практикум 3. Группировка, агрегирование и визуализация с pandas ([https://github.com/allatambov/QuantData23/blob/main/qd-practice03-upd.ipynb читать], [https://www.dropbox.com/scl/fi/fm7qmkfbce40my8xkou0s/qd-practice03-upd.ipynb?rlkey=mwyilkp4qkn37tbc7eiqyg4lq&dl=0 ipynb], файл [https://www.dropbox.com/scl/fi/mmspb7uq40i71siht2l0q/CPI_FH.xlsx?rlkey=0i7lk3xr408srfkyz3inui6au&dl=0 CPI_FH.xlsx]). | * Практикум 3. Группировка, агрегирование и визуализация с pandas ([https://github.com/allatambov/QuantData23/blob/main/qd-practice03-upd.ipynb читать], [https://www.dropbox.com/scl/fi/fm7qmkfbce40my8xkou0s/qd-practice03-upd.ipynb?rlkey=mwyilkp4qkn37tbc7eiqyg4lq&dl=0 ipynb], файл [https://www.dropbox.com/scl/fi/mmspb7uq40i71siht2l0q/CPI_FH.xlsx?rlkey=0i7lk3xr408srfkyz3inui6au&dl=0 CPI_FH.xlsx]). | ||
* Введение в выборочное оценивание ([https://www.dropbox.com/scl/fi/7uc2hrtxrhcyxznckph9v/05.pdf?rlkey=vll76xk11qjxmqn7rzeqt5oqa&dl=0 слайды]). | * Введение в выборочное оценивание ([https://www.dropbox.com/scl/fi/7uc2hrtxrhcyxznckph9v/05.pdf?rlkey=vll76xk11qjxmqn7rzeqt5oqa&dl=0 слайды]). | ||
+ | |||
+ | === Занятие 4. Доверительные интервалы. === | ||
+ | |||
+ | * Доверительные интервалы для доли и среднего ([https://www.dropbox.com/scl/fi/lnwdqw8smjksi64g6q56b/06.pdf?rlkey=oroncigssce3ic7xn58x84px7&dl=0 слайды], [https://rpsychologist.com/d3/ci/ визуализация]). | ||
+ | * Практикум 4. Доверительные интервалы на примере массивов, описание и визуализация опросных данных ([https://github.com/allatambov/QuantData23/blob/main/qd_practice04.ipynb читать], [https://www.dropbox.com/scl/fi/ky3h736tct5i4voezixru/qd_practice04.ipynb?rlkey=g7jv6wmfunqve2wxqkfk91sub&dl=0 ipynb], файл [https://www.dropbox.com/scl/fi/lddxn72b4hb6i4tujql3s/NPK.xlsx?rlkey=q41bplcbt422u9g1h0t3sm3j3&dl=0 NPK.xlsx]). | ||
+ | |||
+ | === Занятие 5. Проверка статистических гипотез. Гипотезы о доле и среднем. === | ||
+ | |||
+ | * Проверка статистических гипотез ([https://www.dropbox.com/scl/fi/k19dn8ve1u2y3kqt7v4gi/07.pdf?rlkey=ddmsy4k2amqjmanaqm1lr4ihf&dl=0 слайды]). | ||
+ | * Практикум 5. Проверка гипотез о долях и средних ([https://github.com/allatambov/QuantData23/blob/main/qd-practice05-upd.ipynb читать], [https://www.dropbox.com/scl/fi/cnfagpzxaw4wphmafrzgz/qd-practice05-upd.ipynb?rlkey=fmdy8m3lk4ggjwejzwxeep5ar&dl=0 ipynb]). | ||
+ | |||
+ | === Занятие 6. Меры связей. Критерий хи-квадрат и коэффициенты корреляции. === | ||
+ | |||
+ | * Меры связи: критерий хи-квадрат ([https://www.dropbox.com/scl/fi/hogprdatw73wgqu7gvl37/08.pdf?rlkey=8sz3lw2asg3c3bn555vft3bop&dl=0 слайды]). | ||
+ | * Меры связи: коэффициенты корреляции ([https://www.dropbox.com/scl/fi/07l7a6i7nio6gp295sdid/08.pdf?rlkey=kwv6zz33n9gqmy8pmh0xg46zv&dl=0 слайды]). | ||
+ | * [https://www.guessthecorrelation.com/ Игра] Guess The Correlation. | ||
+ | * Практикум 6. Выявление связей в качественных и количественных данных ([https://github.com/allatambov/QuantData23/blob/main/qd_practice06.ipynb читать], [https://www.dropbox.com/scl/fi/y7ie7grvay6fk86f80lum/qd_practice06.ipynb?rlkey=mo0k3ddo8ramo5oyo4jt0v11w&dl=0 ipynb], [https://www.dropbox.com/scl/fi/q1k15nwjpboif45oi6jv2/NPK_final-2.xlsx?rlkey=da85eluqzigrchejgnjq9o33l&dl=0 NPK_final 2.xlsx], [https://www.dropbox.com/scl/fi/8qhjgfit3mucaxtx7ck4l/flats.csv?rlkey=vfym0gova9x16rket70t5wj7d&dl=0 flats.csv]). | ||
+ | |||
+ | === Занятие 7. Иерархический кластерный анализ. === | ||
+ | |||
+ | * Практикум 7. Иерархический кластерный анализ ([https://www.dropbox.com/scl/fi/ktaa3825hfv4vuytsi1f4/qd-practice07.ipynb?rlkey=lwp71qowucmx2om5dvon0w20d&dl=0 ipynb], [https://www.dropbox.com/scl/fi/9mjjz89faacecg1dewqpe/BaltimoreCrimesAgg.csv?rlkey=ol9tdxaa33nhtlcyur4fhkiu4&dl=0 BaltimoreCrimesAgg.csv]) | ||
== Домашние задания == | == Домашние задания == | ||
Строка 68: | Строка 89: | ||
| [https://github.com/allatambov/QuantData23/blob/main/hw02.ipynb Домашнее задание 2] || [https://www.dropbox.com/scl/fi/6smag21abrf68cbpm77po/hw02.ipynb?rlkey=niejqbzjjyirewgorv1mdytxl&dl=0 ipynb] [https://www.dropbox.com/scl/fi/9zesr562o4wxizsnibw1j/wgidataset.xlsx?rlkey=2vyr6mfc77953o6roidjgyybj&dl=0 wgidataset.xlsx]|| 05.10 23:59|| [https://www.dropbox.com/request/FhGdOjn8SAJJpfsMlfJn ссылка] | | [https://github.com/allatambov/QuantData23/blob/main/hw02.ipynb Домашнее задание 2] || [https://www.dropbox.com/scl/fi/6smag21abrf68cbpm77po/hw02.ipynb?rlkey=niejqbzjjyirewgorv1mdytxl&dl=0 ipynb] [https://www.dropbox.com/scl/fi/9zesr562o4wxizsnibw1j/wgidataset.xlsx?rlkey=2vyr6mfc77953o6roidjgyybj&dl=0 wgidataset.xlsx]|| 05.10 23:59|| [https://www.dropbox.com/request/FhGdOjn8SAJJpfsMlfJn ссылка] | ||
|- | |- | ||
− | | Домашнее задание 3 || | + | | [https://github.com/allatambov/QuantData23/blob/main/hw03.ipynb Домашнее задание 3] || [https://www.dropbox.com/scl/fi/0eo3daclu3npfrxriao3h/hw03.ipynb?rlkey=7u3f6m9ytexbxvfd6fzfzvkob&dl=0 ipynb] [https://www.dropbox.com/scl/fi/ub2b6t2hv9qaj24bzopf9/Tabellini.xlsx?rlkey=4fpmlzd76xeisvvdnbv60hgjq&dl=0 Tabellini.xlsx] || 15.10 23:59|| [https://www.dropbox.com/request/kfqJMrutsipaWTkNuTKr ссылка] |
|- | |- | ||
− | | Домашнее задание 4 || | + | | [https://github.com/allatambov/QuantData23/blob/main/hw04.ipynb Домашнее задание 4] || [https://www.dropbox.com/scl/fi/e88pkhlqqm2106xbtiebm/hw04.ipynb?rlkey=q64hs0lsmo4upz9tbewskzetk&dl=0 ipynb] [https://www.dropbox.com/scl/fi/7g5ojyoysvgzutlvawwea/coffee_and_code.csv?rlkey=tixvu8k2e9n7tt9wc84ekvoed&dl=0 coffee_and_code.csv] || 24.10 23:59 || [https://www.dropbox.com/request/1MCJWmVZxX0ObkAJkcty ссылка] |
− | |||
− | |||
|} | |} | ||
+ | |||
+ | == Практическая часть экзамена == | ||
+ | |||
+ | * [https://www.dropbox.com/scl/fi/ekoogpv6vdaeeia31gkad/nko-exam-v2.ipynb?rlkey=7irkzwxrfh8tk4vluj4lqzqua&dl=0 ipynb], [https://www.dropbox.com/scl/fi/6m7zdmo7zc9zj059nlscj/beasts.csv?rlkey=qnsjaazris8licsgw1pq0bwwj&dl=0 csv]. |
Текущая версия на 18:59, 27 октября 2023
Дорогие студенты!
Это страница обязательного курса «Основы работы с количественными данными», читаемого на программе
«Коммуникации в государственных структурах и НКО» 1 курса магистратуры в 1 модуле 2023-2024 учебного года.
Занятия ведёт: Тамбовцева Алла Андреевна.
Содержание
- 1 Правила игры
- 2 Программное обеспечение
- 3 Материалы
- 3.1 Занятие 1. Введение в работу с данными. Описание данных.
- 3.2 Занятие 2. Описание данных. Визуализация данных.
- 3.3 Занятие 3. Визуализация данных. Введение в выборочное оценивание.
- 3.4 Занятие 4. Доверительные интервалы.
- 3.5 Занятие 5. Проверка статистических гипотез. Гипотезы о доле и среднем.
- 3.6 Занятие 6. Меры связей. Критерий хи-квадрат и коэффициенты корреляции.
- 3.7 Занятие 7. Иерархический кластерный анализ.
- 4 Домашние задания
- 5 Практическая часть экзамена
Правила игры
- Формула оценки: Итог = 0.5 * Домашние задания + 0.2 * Самостоятельная работа + 0.3 * Экзамен.
- Программа курса, организационная презентация.
- Домашние задания, сданные позже дедлайна, оцениваются со штрафом:
в пределах часа – 10% от оценки, суток – 30%, недели – 60%.
Программное обеспечение
На этом курсе для практической работы с данными мы используем язык Python и среду Jupyter Notebook (ее облачную версию Google Colab). Для создания и редактирования файлов в Google Colab ничего устанавливать не нужно, но нужно иметь аккаунт Google (Gmail).
Если вы хотите работать в Jupyter Notebook локально, на своем компьютере, а не в облачной среде, удобнее всего установить дистрибутив Anaconda (скачать можно здесь), который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также саму среду Jupyter Notebook.
Работа в Google Colab:
- Создание файлов и запуск кода в Google Colab: видео.
- Загрузка и выгрузка файлов в Google Colab: видео.
Установка Anaconda и запуск Jupyter Notebook:
- Для установки Anaconda нужно скачать установочный файл для своей системы отсюда, запустить его и следовать инструкциям.
- Среду Jupyter Notebook можно запускать через приложение Anaconda Navigator (находим Anaconda Navigator в списке программ, запускаем, кликаем на кнопку Launch под Jupyter Notebook) и отдельно от него (см. инструкцию).
Подробнее про работу в Jupyter Notebook и Google Colab:
- Работа в Jupyter Notebook (видео), работа в Google Colab (видео).
- Набор текста в Jupyter (видео, ipynb).
Для тех, кто не работал в Python и Jupyter: можно записаться на вышкинский онлайн-курс «Python как иностранный» (открыт для записи в SmartLMS). Для подготовки рабочего места рекомендуется ознакомиться со следующими материалами в теме 1: Видео. Подготовка рабочего места, инструкция по открытию файлов в Jupyter Notebook, Видео. Первая программа, Задачи для тренировки.
Материалы
Занятие 1. Введение в работу с данными. Описание данных.
- Введение в выборочные обследования (слайды). Шкалы данных (слайды).
- Описание данных: часть 1 (слайды).
- Практикум 1. Введение в работу с данными (читать, ipynb).
Занятие 2. Описание данных. Визуализация данных.
- Описание данных: часть 2 (слайды). Визуализация количественных данных (слайды).
- Практикум 2. Описание и визуализация данных (читать, ipynb, файл flats.csv).
Дополнительно:
Занятие 3. Визуализация данных. Введение в выборочное оценивание.
- Практикум 3. Группировка, агрегирование и визуализация с pandas (читать, ipynb, файл CPI_FH.xlsx).
- Введение в выборочное оценивание (слайды).
Занятие 4. Доверительные интервалы.
- Доверительные интервалы для доли и среднего (слайды, визуализация).
- Практикум 4. Доверительные интервалы на примере массивов, описание и визуализация опросных данных (читать, ipynb, файл NPK.xlsx).
Занятие 5. Проверка статистических гипотез. Гипотезы о доле и среднем.
- Проверка статистических гипотез (слайды).
- Практикум 5. Проверка гипотез о долях и средних (читать, ipynb).
Занятие 6. Меры связей. Критерий хи-квадрат и коэффициенты корреляции.
- Меры связи: критерий хи-квадрат (слайды).
- Меры связи: коэффициенты корреляции (слайды).
- Игра Guess The Correlation.
- Практикум 6. Выявление связей в качественных и количественных данных (читать, ipynb, NPK_final 2.xlsx, flats.csv).
Занятие 7. Иерархический кластерный анализ.
- Практикум 7. Иерархический кластерный анализ (ipynb, BaltimoreCrimesAgg.csv)
Домашние задания
Домашнее задание | Файлы | Дедлайн | Куда сдавать |
---|---|---|---|
Домашнее задание 1 | ipynb | 24.09 23:59 | ссылка |
Домашнее задание 2 | ipynb wgidataset.xlsx | 05.10 23:59 | ссылка |
Домашнее задание 3 | ipynb Tabellini.xlsx | 15.10 23:59 | ссылка |
Домашнее задание 4 | ipynb coffee_and_code.csv | 24.10 23:59 | ссылка |