Основы работы с количественными данными: различия между версиями
(не показаны 23 промежуточные версии этого же участника) | |||
Строка 13: | Строка 13: | ||
== Программное обеспечение == | == Программное обеспечение == | ||
− | На этом курсе для практической работы с данными мы используем язык Python и среду Jupyter Notebook (или ее облачный аналог [https://colab.research.google.com/ Google Colab]). Для создания и редактирования файлов в Google Colab ничего устанавливать не нужно, но нужно иметь аккаунт Google (Gmail). | + | На этом курсе для практической работы с данными мы используем язык Python и среду Jupyter Notebook (или ее облачный аналог [https://colab.research.google.com/ Google Colab]).<br>Для создания и редактирования файлов в Google Colab ничего устанавливать не нужно, но нужно иметь аккаунт Google (Gmail). |
− | Для работы в Jupyter Notebook на своем компьютере, а не в облачной среде, удобнее всего установить дистрибутив '''Anaconda''' (скачать можно [https://www.anaconda.com/download здесь]), который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также саму среду Jupyter Notebook. | + | Для работы в Jupyter Notebook на своем компьютере, а не в облачной среде, удобнее всего установить дистрибутив '''Anaconda''' (скачать можно [https://www.anaconda.com/download здесь]),<br>который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также саму среду Jupyter Notebook. |
'''Установка Anaconda и работа в Jupyter Notebook и Google Colab''' | '''Установка Anaconda и работа в Jupyter Notebook и Google Colab''' | ||
Строка 47: | Строка 47: | ||
=== Неделя 3. Визуализация количественных данных. Датафреймы Pandas === | === Неделя 3. Визуализация количественных данных. Датафреймы Pandas === | ||
− | * Принципы визуализации. Визуализация количественных данных ([https://disk.yandex.ru/i/8iiTKQ7pm41Khw слайды]) | + | * Принципы визуализации. Визуализация количественных данных ([https://disk.yandex.ru/i/8iiTKQ7pm41Khw слайды]). |
− | * Практикум 3. Описание и визуализация количественных данных ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice03.ipynb ipynb], [https://github.com/allatambov/QuantDat24/blob/main/salaries.csv salaries.csv]), решения (ipynb). | + | * Практикум 3. Описание и визуализация количественных данных ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice03.ipynb ipynb], [https://github.com/allatambov/QuantDat24/blob/main/salaries.csv salaries.csv]), решения ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice03-solutions.ipynb ipynb]). |
+ | |||
+ | === Неделя 4. Визуализация количественных и качественных данных === | ||
+ | |||
+ | * Практикум 4.1. Обработка и визуализация количественных данных ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice04-01.ipynb ipynb], [https://github.com/allatambov/QuantDat24/blob/main/charity_data.csv charity_data.csv]), решения ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice04-01-solutions.ipynb ipynb]). | ||
+ | |||
+ | Дополнительно: | ||
+ | |||
+ | * Названия готовых цветов, поддерживаемые в Python: [https://matplotlib.org/stable/gallery/color/named_colors.html документация]. | ||
+ | * Названия цветов от colorscheme.ru с кодами HTML: [https://colorscheme.ru/color-names.html каталог]. | ||
+ | * Источники готовых палитр сочетаемых цветов: [https://colorhunt.co/ Color Hunt], [https://coolors.co/palettes/trending Coolors]. | ||
+ | * Практикум 4.2. Обработка и визуализация качественных данных ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice04-02.ipynb ipynb], [https://github.com/allatambov/QuantDat24/blob/main/NPK_24_last.xlsx NPK_24_last.xlsx]), ещё не разбирали. | ||
+ | |||
+ | === Неделя 5. Выборочное оценивание и доверительные интервалы === | ||
+ | |||
+ | * Выборочное оценивание и доверительные интервалы ([https://disk.yandex.ru/d/Ag3JV_hwTAFgYQ слайды]). | ||
+ | * Полезная визуализация для доверительных интервалов ([https://rpsychologist.com/d3/ci/ ссылка]). | ||
+ | |||
+ | === Неделя 6. Доверительные интервалы и проверка гипотез === | ||
+ | |||
+ | * Введение в проверку статистических гипотез ([https://disk.yandex.ru/i/fuq0agKo7ht1ig слайды]). | ||
+ | * Практикум 5-6. Доверительные интервалы и проверка гипотез ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice05-06.ipynb ipynb], [https://github.com/allatambov/QuantDat24/blob/main/sentiment.csv sentiment.csv]), решения ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice05-06-solutions.ipynb ipynb]). | ||
+ | |||
+ | Дополнительно: | ||
+ | |||
+ | * [https://disk.yandex.ru/i/6OwGNf27CsRCgA Памятка] по доверительным интервалам. | ||
+ | * [https://allatambov.github.io/twimc22/hypo.pdf Памятка] по проверке гипотез (не только чрез p-value). | ||
+ | |||
+ | === Неделя 7. Проверка гипотез. Меры связи: коэффициенты корреляции === | ||
+ | |||
+ | * Меры связи: коэффициенты корреляции ([https://disk.yandex.ru/i/Pc_xhymEZqn7Yw слайды]). | ||
+ | * Практикум 6-7. Проверка гипотез, коэффициенты корреляции ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice06-07.ipynb ipynb], [https://github.com/allatambov/QuantDat24/blob/main/Diet.csv Diet.csv]). | ||
+ | |||
+ | Дополнительно: | ||
+ | |||
+ | * Проверка гипотез о сравнении групп, сводный [https://github.com/allatambov/PyPerm24/blob/main/09-info-tests.ipynb файл] с функциями. | ||
+ | * Выявление связей в качественных данных: таблицы сопряженности и критерий хи-квадрат ([https://disk.yandex.ru/i/0T9TI6aVvLSdGA слайды]). | ||
+ | * Игра на угадывание коэффициента Пирсона по диаграмме рассеивания: [https://www.guessthecorrelation.com/ Guess The Correlation] | ||
== Домашние задания == | == Домашние задания == | ||
Строка 58: | Строка 95: | ||
| Домашнее задание 1 ([https://disk.yandex.ru/d/NZS8AeqQg09Hmg варианты]) || 25.09 23:59 || [https://www.dropbox.com/request/WhbFDjz7BN0zb273pPls ссылка] | | Домашнее задание 1 ([https://disk.yandex.ru/d/NZS8AeqQg09Hmg варианты]) || 25.09 23:59 || [https://www.dropbox.com/request/WhbFDjz7BN0zb273pPls ссылка] | ||
|- | |- | ||
− | | Домашнее задание 2 (варианты)|| | + | | Домашнее задание 2 ([https://disk.yandex.ru/d/wAU5ItSo8Y0pdw варианты], [https://github.com/allatambov/QuantDat24/blob/main/wgidataset.csv wgidataset.csv])|| 09.10 23:59 || [https://www.dropbox.com/request/IwzkrNlAB5kN7EmCukzA ссылка] |
|- | |- | ||
− | | Домашнее задание 3 (варианты)|| | + | | Домашнее задание 3 ([https://disk.yandex.ru/d/oiobvw5uHm_3sg варианты])|| 20.10 23:59 || [https://www.dropbox.com/request/Be0oRRYQ0U5JFAVLEjsI ссылка] |
|- | |- | ||
− | | Домашнее задание 4 (варианты)|| | + | | Домашнее задание 4 ([https://disk.yandex.ru/d/Y-plyQp8dG_goQ варианты], [https://github.com/allatambov/QuantDat24/blob/main/games.csv games.csv])|| 25.10 16:00 || [https://www.dropbox.com/request/hac3uL2uHXqhPrxruDpH ссылка] |
|} | |} | ||
+ | |||
+ | == Экзамен == | ||
+ | |||
+ | Варианты и данные: [https://disk.yandex.ru/d/EOGoV-jbI-AlHw ссылка]. |
Текущая версия на 18:40, 25 октября 2024
Дорогие студенты!
Это страница обязательного курса «Основы работы с количественными данными», читаемого на программе
«Коммуникации в государственных структурах и НКО» 1 курса магистратуры в 1 модуле 2024-2025 учебного года.
Занятия ведёт: Тамбовцева Алла Андреевна.
Содержание
- 1 Правила игры
- 2 Программное обеспечение
- 3 Материалы
- 3.1 Неделя 1. Шкалы данных. Введение в Python
- 3.2 Неделя 2. Описание данных. Числовые массивы в Python
- 3.3 Неделя 3. Визуализация количественных данных. Датафреймы Pandas
- 3.4 Неделя 4. Визуализация количественных и качественных данных
- 3.5 Неделя 5. Выборочное оценивание и доверительные интервалы
- 3.6 Неделя 6. Доверительные интервалы и проверка гипотез
- 3.7 Неделя 7. Проверка гипотез. Меры связи: коэффициенты корреляции
- 4 Домашние задания
- 5 Экзамен
Правила игры
- Формула оценки: Итог = 0.48 * ДЗ + 0.2 * Проверочные работы + 0.32 * Экзамен.
- Программа курса, организационная презентация.
- Домашние задания, сданные позже дедлайна, оцениваются со штрафом:
в пределах часа – 10% от оценки, суток – 30%, недели – 60%.
Программное обеспечение
На этом курсе для практической работы с данными мы используем язык Python и среду Jupyter Notebook (или ее облачный аналог Google Colab).
Для создания и редактирования файлов в Google Colab ничего устанавливать не нужно, но нужно иметь аккаунт Google (Gmail).
Для работы в Jupyter Notebook на своем компьютере, а не в облачной среде, удобнее всего установить дистрибутив Anaconda (скачать можно здесь),
который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также саму среду Jupyter Notebook.
Установка Anaconda и работа в Jupyter Notebook и Google Colab
- Материалы онлайн-курса (доступен всем в SmartLMS): подготовка рабочего места, инструкция по открытию файлов в Jupyter.
- Запуск Jupyter без Anaconda Navigator (инструкция).
- Работа в Jupyter Notebook (видео), отличия Google Colab от Jupyter (видео).
Дополнительно для желающих:
Материалы
Неделя 1. Шкалы данных. Введение в Python
- Шкалы данных (слайды). Введение в Python (ipynb).
- Практикум 1: переменные и проверка условий (ipynb), решения (ipynb).
Дополнительно (для желающих узнать больше о Python):
- Вычисления, переменные, типы данных в Python (ipynb).
- Ввод и вывод, форматирование строк (ipynb). Условные конструкции (ipynb).
- Документация библиотеки sympy для решения уравнений и других вычислений.
Неделя 2. Описание данных. Числовые массивы в Python
- Описательные статистики (слайды). Последовательности в Python: строки, списки, массивы (ipynb).
- Практикум 2. Описательные статистики (ipynb), решения (ipynb).
Неделя 3. Визуализация количественных данных. Датафреймы Pandas
- Принципы визуализации. Визуализация количественных данных (слайды).
- Практикум 3. Описание и визуализация количественных данных (ipynb, salaries.csv), решения (ipynb).
Неделя 4. Визуализация количественных и качественных данных
- Практикум 4.1. Обработка и визуализация количественных данных (ipynb, charity_data.csv), решения (ipynb).
Дополнительно:
- Названия готовых цветов, поддерживаемые в Python: документация.
- Названия цветов от colorscheme.ru с кодами HTML: каталог.
- Источники готовых палитр сочетаемых цветов: Color Hunt, Coolors.
- Практикум 4.2. Обработка и визуализация качественных данных (ipynb, NPK_24_last.xlsx), ещё не разбирали.
Неделя 5. Выборочное оценивание и доверительные интервалы
- Выборочное оценивание и доверительные интервалы (слайды).
- Полезная визуализация для доверительных интервалов (ссылка).
Неделя 6. Доверительные интервалы и проверка гипотез
- Введение в проверку статистических гипотез (слайды).
- Практикум 5-6. Доверительные интервалы и проверка гипотез (ipynb, sentiment.csv), решения (ipynb).
Дополнительно:
Неделя 7. Проверка гипотез. Меры связи: коэффициенты корреляции
- Меры связи: коэффициенты корреляции (слайды).
- Практикум 6-7. Проверка гипотез, коэффициенты корреляции (ipynb, Diet.csv).
Дополнительно:
- Проверка гипотез о сравнении групп, сводный файл с функциями.
- Выявление связей в качественных данных: таблицы сопряженности и критерий хи-квадрат (слайды).
- Игра на угадывание коэффициента Пирсона по диаграмме рассеивания: Guess The Correlation
Домашние задания
Домашнее задание | Дедлайн | Куда сдавать |
---|---|---|
Домашнее задание 1 (варианты) | 25.09 23:59 | ссылка |
Домашнее задание 2 (варианты, wgidataset.csv) | 09.10 23:59 | ссылка |
Домашнее задание 3 (варианты) | 20.10 23:59 | ссылка |
Домашнее задание 4 (варианты, games.csv) | 25.10 16:00 | ссылка |
Экзамен
Варианты и данные: ссылка.