Основы работы с количественными данными: различия между версиями
(не показано 36 промежуточных версий этого же участника) | |||
Строка 13: | Строка 13: | ||
== Программное обеспечение == | == Программное обеспечение == | ||
− | На этом курсе для практической работы с данными мы используем язык Python и среду Jupyter Notebook (или ее облачный аналог [https://colab.research.google.com/ Google Colab]). Для создания и редактирования файлов в Google Colab ничего устанавливать не нужно, но нужно иметь аккаунт Google (Gmail). | + | На этом курсе для практической работы с данными мы используем язык Python и среду Jupyter Notebook (или ее облачный аналог [https://colab.research.google.com/ Google Colab]).<br>Для создания и редактирования файлов в Google Colab ничего устанавливать не нужно, но нужно иметь аккаунт Google (Gmail). |
− | Для работы в Jupyter Notebook на своем компьютере, а не в облачной среде, удобнее всего установить дистрибутив '''Anaconda''' (скачать можно [https://www.anaconda.com/download здесь]), который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также саму среду Jupyter Notebook. | + | Для работы в Jupyter Notebook на своем компьютере, а не в облачной среде, удобнее всего установить дистрибутив '''Anaconda''' (скачать можно [https://www.anaconda.com/download здесь]),<br>который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также саму среду Jupyter Notebook. |
+ | |||
+ | '''Установка Anaconda и работа в Jupyter Notebook и Google Colab''' | ||
+ | |||
+ | * Материалы [https://edu.hse.ru/course/view.php?id=133389 онлайн-курса] (доступен всем в SmartLMS): [https://edu.hse.ru/mod/page/view.php?id=502433 подготовка рабочего места], [https://edu.hse.ru/mod/page/view.php?id=502434 инструкция по открытию файлов в Jupyter]. | ||
+ | * Запуск Jupyter без Anaconda Navigator ([https://disk.yandex.ru/i/w6yPaRbPcm8yyg инструкция]). | ||
+ | * Работа в Jupyter Notebook ([https://disk.yandex.ru/i/2NYAqowJjmS2SA видео]), отличия Google Colab от Jupyter ([https://disk.yandex.ru/i/cGbacX28YtR08g видео]). | ||
+ | |||
+ | Дополнительно для желающих: | ||
+ | |||
+ | * Набор текста в Jupyter Notebook ([https://disk.yandex.ru/i/bNqLGRjrq_UEjg видео], [https://disk.yandex.ru/d/C1E7Axa0jr4nwQ ipynb]), [https://gist.github.com/Jekins/2bf2d0638163f1294637 больше] о Markdown. | ||
== Материалы == | == Материалы == | ||
Строка 21: | Строка 31: | ||
=== Неделя 1. Шкалы данных. Введение в Python === | === Неделя 1. Шкалы данных. Введение в Python === | ||
− | * Шкалы данных (слайды). Введение в Python (ipynb). | + | * Шкалы данных ([https://disk.yandex.ru/i/H1ewYczPS8S8UQ слайды]). Введение в Python ([https://github.com/allatambov/QuantDat24/blob/main/qd-01-intro-python.ipynb ipynb]). |
− | * Практикум 1: переменные и проверка условий ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice01.ipynb ipynb]). | + | * Практикум 1: переменные и проверка условий ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice01.ipynb ipynb]), решения ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice01-solutions.ipynb ipynb]). |
+ | |||
+ | Дополнительно (для желающих узнать больше о Python): | ||
+ | |||
+ | * Вычисления, переменные, типы данных в Python ([https://github.com/allatambov/ICEF24/blob/main/01-calculations-variables.ipynb ipynb]). | ||
+ | * Ввод и вывод, форматирование строк ([https://github.com/allatambov/ICEF24/blob/main/02-input-output-format.ipynb ipynb]). Условные конструкции ([https://github.com/allatambov/PyPolit2023/blob/main/testing-conditions.ipynb ipynb]). | ||
+ | *[https://docs.sympy.org/latest/tutorials/index.html#tutorials Документация] библиотеки sympy для решения уравнений и других вычислений. | ||
+ | |||
+ | === Неделя 2. Описание данных. Числовые массивы в Python === | ||
+ | |||
+ | * Описательные статистики ([https://disk.yandex.ru/i/0RsxovCpKLUcBw слайды]). Последовательности в Python: строки, списки, массивы ([https://github.com/allatambov/QuantDat24/blob/main/qd-02-lists-arrays.ipynb ipynb]). | ||
+ | * Практикум 2. Описательные статистики ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice02.ipynb ipynb]), решения ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice02-solutions.ipynb ipynb]). | ||
+ | |||
+ | === Неделя 3. Визуализация количественных данных. Датафреймы Pandas === | ||
+ | |||
+ | * Принципы визуализации. Визуализация количественных данных ([https://disk.yandex.ru/i/8iiTKQ7pm41Khw слайды]). | ||
+ | * Практикум 3. Описание и визуализация количественных данных ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice03.ipynb ipynb], [https://github.com/allatambov/QuantDat24/blob/main/salaries.csv salaries.csv]), решения ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice03-solutions.ipynb ipynb]). | ||
+ | |||
+ | === Неделя 4. Визуализация количественных и качественных данных === | ||
+ | |||
+ | * Практикум 4.1. Обработка и визуализация количественных данных ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice04-01.ipynb ipynb], [https://github.com/allatambov/QuantDat24/blob/main/charity_data.csv charity_data.csv]), решения ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice04-01-solutions.ipynb ipynb]). | ||
+ | |||
+ | Дополнительно: | ||
+ | |||
+ | * Названия готовых цветов, поддерживаемые в Python: [https://matplotlib.org/stable/gallery/color/named_colors.html документация]. | ||
+ | * Названия цветов от colorscheme.ru с кодами HTML: [https://colorscheme.ru/color-names.html каталог]. | ||
+ | * Источники готовых палитр сочетаемых цветов: [https://colorhunt.co/ Color Hunt], [https://coolors.co/palettes/trending Coolors]. | ||
+ | * Практикум 4.2. Обработка и визуализация качественных данных ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice04-02.ipynb ipynb], [https://github.com/allatambov/QuantDat24/blob/main/NPK_24_last.xlsx NPK_24_last.xlsx]), ещё не разбирали. | ||
+ | |||
+ | === Неделя 5. Выборочное оценивание и доверительные интервалы === | ||
+ | |||
+ | * Выборочное оценивание и доверительные интервалы ([https://disk.yandex.ru/d/Ag3JV_hwTAFgYQ слайды]). | ||
+ | * Полезная визуализация для доверительных интервалов ([https://rpsychologist.com/d3/ci/ ссылка]). | ||
+ | |||
+ | === Неделя 6. Доверительные интервалы и проверка гипотез === | ||
+ | |||
+ | * Введение в проверку статистических гипотез ([https://disk.yandex.ru/i/fuq0agKo7ht1ig слайды]). | ||
+ | * Практикум 5-6. Доверительные интервалы и проверка гипотез ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice05-06.ipynb ipynb], [https://github.com/allatambov/QuantDat24/blob/main/sentiment.csv sentiment.csv]), решения ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice05-06-solutions.ipynb ipynb]). | ||
+ | |||
+ | Дополнительно: | ||
+ | |||
+ | * [https://disk.yandex.ru/i/6OwGNf27CsRCgA Памятка] по доверительным интервалам. | ||
+ | * [https://allatambov.github.io/twimc22/hypo.pdf Памятка] по проверке гипотез (не только чрез p-value). | ||
+ | |||
+ | === Неделя 7. Проверка гипотез. Меры связи: коэффициенты корреляции === | ||
+ | |||
+ | * Меры связи: коэффициенты корреляции ([https://disk.yandex.ru/i/Pc_xhymEZqn7Yw слайды]). | ||
+ | * Практикум 6-7. Проверка гипотез, коэффициенты корреляции ([https://github.com/allatambov/QuantDat24/blob/main/qd-practice06-07.ipynb ipynb], [https://github.com/allatambov/QuantDat24/blob/main/Diet.csv Diet.csv]). | ||
+ | |||
+ | Дополнительно: | ||
+ | |||
+ | * Проверка гипотез о сравнении групп, сводный [https://github.com/allatambov/PyPerm24/blob/main/09-info-tests.ipynb файл] с функциями. | ||
+ | * Выявление связей в качественных данных: таблицы сопряженности и критерий хи-квадрат ([https://disk.yandex.ru/i/0T9TI6aVvLSdGA слайды]). | ||
+ | * Игра на угадывание коэффициента Пирсона по диаграмме рассеивания: [https://www.guessthecorrelation.com/ Guess The Correlation] | ||
+ | |||
+ | == Домашние задания == | ||
+ | |||
+ | {| class="wikitable" | ||
+ | |- | ||
+ | ! Домашнее задание !! Дедлайн !! Куда сдавать | ||
+ | |- | ||
+ | | Домашнее задание 1 ([https://disk.yandex.ru/d/NZS8AeqQg09Hmg варианты]) || 25.09 23:59 || [https://www.dropbox.com/request/WhbFDjz7BN0zb273pPls ссылка] | ||
+ | |- | ||
+ | | Домашнее задание 2 ([https://disk.yandex.ru/d/wAU5ItSo8Y0pdw варианты], [https://github.com/allatambov/QuantDat24/blob/main/wgidataset.csv wgidataset.csv])|| 09.10 23:59 || [https://www.dropbox.com/request/IwzkrNlAB5kN7EmCukzA ссылка] | ||
+ | |- | ||
+ | | Домашнее задание 3 ([https://disk.yandex.ru/d/oiobvw5uHm_3sg варианты])|| 20.10 23:59 || [https://www.dropbox.com/request/Be0oRRYQ0U5JFAVLEjsI ссылка] | ||
+ | |- | ||
+ | | Домашнее задание 4 ([https://disk.yandex.ru/d/Y-plyQp8dG_goQ варианты], [https://github.com/allatambov/QuantDat24/blob/main/games.csv games.csv])|| 25.10 16:00 || [https://www.dropbox.com/request/hac3uL2uHXqhPrxruDpH ссылка] | ||
+ | |} | ||
+ | |||
+ | == Экзамен == | ||
+ | |||
+ | Варианты и данные: [https://disk.yandex.ru/d/EOGoV-jbI-AlHw ссылка]. |
Текущая версия на 18:40, 25 октября 2024
Дорогие студенты!
Это страница обязательного курса «Основы работы с количественными данными», читаемого на программе
«Коммуникации в государственных структурах и НКО» 1 курса магистратуры в 1 модуле 2024-2025 учебного года.
Занятия ведёт: Тамбовцева Алла Андреевна.
Содержание
- 1 Правила игры
- 2 Программное обеспечение
- 3 Материалы
- 3.1 Неделя 1. Шкалы данных. Введение в Python
- 3.2 Неделя 2. Описание данных. Числовые массивы в Python
- 3.3 Неделя 3. Визуализация количественных данных. Датафреймы Pandas
- 3.4 Неделя 4. Визуализация количественных и качественных данных
- 3.5 Неделя 5. Выборочное оценивание и доверительные интервалы
- 3.6 Неделя 6. Доверительные интервалы и проверка гипотез
- 3.7 Неделя 7. Проверка гипотез. Меры связи: коэффициенты корреляции
- 4 Домашние задания
- 5 Экзамен
Правила игры
- Формула оценки: Итог = 0.48 * ДЗ + 0.2 * Проверочные работы + 0.32 * Экзамен.
- Программа курса, организационная презентация.
- Домашние задания, сданные позже дедлайна, оцениваются со штрафом:
в пределах часа – 10% от оценки, суток – 30%, недели – 60%.
Программное обеспечение
На этом курсе для практической работы с данными мы используем язык Python и среду Jupyter Notebook (или ее облачный аналог Google Colab).
Для создания и редактирования файлов в Google Colab ничего устанавливать не нужно, но нужно иметь аккаунт Google (Gmail).
Для работы в Jupyter Notebook на своем компьютере, а не в облачной среде, удобнее всего установить дистрибутив Anaconda (скачать можно здесь),
который включает в себя интерпретатор языка Python, библиотеки для обработки, анализа и визуализации данных, а также саму среду Jupyter Notebook.
Установка Anaconda и работа в Jupyter Notebook и Google Colab
- Материалы онлайн-курса (доступен всем в SmartLMS): подготовка рабочего места, инструкция по открытию файлов в Jupyter.
- Запуск Jupyter без Anaconda Navigator (инструкция).
- Работа в Jupyter Notebook (видео), отличия Google Colab от Jupyter (видео).
Дополнительно для желающих:
Материалы
Неделя 1. Шкалы данных. Введение в Python
- Шкалы данных (слайды). Введение в Python (ipynb).
- Практикум 1: переменные и проверка условий (ipynb), решения (ipynb).
Дополнительно (для желающих узнать больше о Python):
- Вычисления, переменные, типы данных в Python (ipynb).
- Ввод и вывод, форматирование строк (ipynb). Условные конструкции (ipynb).
- Документация библиотеки sympy для решения уравнений и других вычислений.
Неделя 2. Описание данных. Числовые массивы в Python
- Описательные статистики (слайды). Последовательности в Python: строки, списки, массивы (ipynb).
- Практикум 2. Описательные статистики (ipynb), решения (ipynb).
Неделя 3. Визуализация количественных данных. Датафреймы Pandas
- Принципы визуализации. Визуализация количественных данных (слайды).
- Практикум 3. Описание и визуализация количественных данных (ipynb, salaries.csv), решения (ipynb).
Неделя 4. Визуализация количественных и качественных данных
- Практикум 4.1. Обработка и визуализация количественных данных (ipynb, charity_data.csv), решения (ipynb).
Дополнительно:
- Названия готовых цветов, поддерживаемые в Python: документация.
- Названия цветов от colorscheme.ru с кодами HTML: каталог.
- Источники готовых палитр сочетаемых цветов: Color Hunt, Coolors.
- Практикум 4.2. Обработка и визуализация качественных данных (ipynb, NPK_24_last.xlsx), ещё не разбирали.
Неделя 5. Выборочное оценивание и доверительные интервалы
- Выборочное оценивание и доверительные интервалы (слайды).
- Полезная визуализация для доверительных интервалов (ссылка).
Неделя 6. Доверительные интервалы и проверка гипотез
- Введение в проверку статистических гипотез (слайды).
- Практикум 5-6. Доверительные интервалы и проверка гипотез (ipynb, sentiment.csv), решения (ipynb).
Дополнительно:
Неделя 7. Проверка гипотез. Меры связи: коэффициенты корреляции
- Меры связи: коэффициенты корреляции (слайды).
- Практикум 6-7. Проверка гипотез, коэффициенты корреляции (ipynb, Diet.csv).
Дополнительно:
- Проверка гипотез о сравнении групп, сводный файл с функциями.
- Выявление связей в качественных данных: таблицы сопряженности и критерий хи-квадрат (слайды).
- Игра на угадывание коэффициента Пирсона по диаграмме рассеивания: Guess The Correlation
Домашние задания
Домашнее задание | Дедлайн | Куда сдавать |
---|---|---|
Домашнее задание 1 (варианты) | 25.09 23:59 | ссылка |
Домашнее задание 2 (варианты, wgidataset.csv) | 09.10 23:59 | ссылка |
Домашнее задание 3 (варианты) | 20.10 23:59 | ссылка |
Домашнее задание 4 (варианты, games.csv) | 25.10 16:00 | ссылка |
Экзамен
Варианты и данные: ссылка.