Основы работы с количественными данными: различия между версиями
(не показана 1 промежуточная версия этого же участника) | |||
Строка 51: | Строка 51: | ||
=== Неделя 5. Проверка статистических гипотез. Меры связи. === | === Неделя 5. Проверка статистических гипотез. Меры связи. === | ||
− | * [Видеозапись] занятия. | + | * [https://www.dropbox.com/sh/046t9wphzjg3247/AAC6P5DZDY_E5f9BvhD4c0c1a?dl=0 Видеозапись] занятия. |
* Проверка статистических гипотез, концепция p-value ([https://www.dropbox.com/s/6ndemkm05x1rgfq/07-%D0%9F%D1%80%D0%BE%D0%B2%D0%B5%D1%80%D0%BA%D0%B0%20%D0%B3%D0%B8%D0%BF%D0%BE%D1%82%D0%B5%D0%B7.pdf?dl=0 слайды]). | * Проверка статистических гипотез, концепция p-value ([https://www.dropbox.com/s/6ndemkm05x1rgfq/07-%D0%9F%D1%80%D0%BE%D0%B2%D0%B5%D1%80%D0%BA%D0%B0%20%D0%B3%D0%B8%D0%BF%D0%BE%D1%82%D0%B5%D0%B7.pdf?dl=0 слайды]). | ||
* Меры связи для данных в количественной/порядковой шкале ([https://www.dropbox.com/s/g56w6g6wd6v2ovk/08-%D0%9C%D0%B5%D1%80%D1%8B%20%D1%81%D0%B2%D1%8F%D0%B7%D0%B8.pdf?dl=0 слайды]). | * Меры связи для данных в количественной/порядковой шкале ([https://www.dropbox.com/s/g56w6g6wd6v2ovk/08-%D0%9C%D0%B5%D1%80%D1%8B%20%D1%81%D0%B2%D1%8F%D0%B7%D0%B8.pdf?dl=0 слайды]). | ||
Строка 82: | Строка 82: | ||
| [https://www.dropbox.com/s/qxs9t4ks3zsfxh5/%D0%94%D0%97-04.pdf?dl=0 Домашнее задание 4] || 13.10 23:59 | | [https://www.dropbox.com/s/qxs9t4ks3zsfxh5/%D0%94%D0%97-04.pdf?dl=0 Домашнее задание 4] || 13.10 23:59 | ||
|- | |- | ||
− | | Домашнее задание 5 || | + | | [https://www.dropbox.com/s/jirtc7od7es63io/%D0%94%D0%97-05.pdf?dl=0 Домашнее задание 5] || 22.10 23:59 |
|} | |} | ||
Текущая версия на 01:30, 16 октября 2022
Дорогие студенты!
Это страница обязательного курса «Основы работы с количественными данными», читаемого на программе «Коммуникации в государственных структурах и НКО» 1 курса магистратуры в 1 модуле 2022-2023 учебного года.
Семинары ведёт: Тамбовцева Алла Андреевна.
Содержание
- 1 Правила игры
- 2 Программное обеспечение
- 3 Материалы занятий
- 3.1 Неделя 1. Введение в анализ данных. Описание данных.
- 3.2 Неделя 2. Описание данных. Визуализация данных.
- 3.3 Неделя 3. Визуализация данных. Основные понятия теории вероятностей и статистики.
- 3.4 Неделя 4. Введение в статистическое оценивание. Доверительные интервалы.
- 3.5 Неделя 5. Проверка статистических гипотез. Меры связи.
- 3.6 Неделя 6. Меры связи. Критерий хи-квадрат.
- 3.7 Неделя 7. Линейная регрессия. Иерархический кластерный анализ.
- 4 Домашние задания
- 5 Дополнительные материалы
Правила игры
- Формула оценки: Итог = 0.5 * Домашние задания + 0.2 * Самостоятельная работа + 0.3 * Экзамен.
- Программа курса, пояснения по формам контроля.
Программное обеспечение
В рамках практической части курса используются Google Sheets, для работы достаточно иметь аккаунт Gmail.
Материалы занятий
Неделя 1. Введение в анализ данных. Описание данных.
- Введение в анализ данных: шкалы данных, интегральные индексы (слайды).
- Описание данных: введение в выборочные обследования, описательные статистики (слайды).
- Практикум 1: задания, решения.
Что почитать по теме: Ч.Уилан «Голая статистика» (главы 1-3), А.Макаров и др. «Задачник по математической статистике для студентов социально-гуманитарных и управленческих специальностей» (главы 2.1-2.2), M.Sternstein "AP Statistics" (topic 2).
Неделя 2. Описание данных. Визуализация данных.
- Описание данных: меры изменчивости, данные в неколичественных шкалах (слайды).
- Визуализация данных: принципы визуализации, графики распределения количественных данных (слайды).
- Практикум 2: таблица, задание, решение.
Что почитать по теме: А.Макаров и др. «Задачник по математической статистике для студентов социально-гуманитарных и управленческих специальностей» (глава 2.3), M.Sternstein "AP Statistics" (topic 3), Шипунов и др. Наглядная статистика. Используем R! (главы 1-3).
Неделя 3. Визуализация данных. Основные понятия теории вероятностей и статистики.
- Визуализация данных: графики распределения качественных данных.
- Практикум 3: таблица, задание, решение.
- Введение в теорию вероятностей: события и вероятности, случайные величины (конспект).
Что почитать по теме: А.Макаров. А.Пашкевич. «Задачник по теории вероятностей для студентов социально-гуманитарных и управленческих специальностей» (разделы 2-3, 6), Шипунов и др. Наглядная статистика. Используем R! (главы 1-3).
Неделя 4. Введение в статистическое оценивание. Доверительные интервалы.
- Видеозапись занятия.
- Ещё немного о случайных величинах: описание непрерывных случайных величин (конспект).
- Введение в статистическое оценивание. Статистические законы. Доверительные интервалы (слайды), симуляции в R.
- Онлайн-калькулятор для доверительных интервалов, визуализация доверительных интервалов.
Что почитать по теме: А.Макаров и др. «Задачник по математической статистике для студентов социально-гуманитарных и управленческих специальностей» (главы 3.3-3.4), Ч.Уилан «Голая статистика» (главы 8, 10), M.Sternstein "AP Statistics" (topics 12-13).
Неделя 5. Проверка статистических гипотез. Меры связи.
- Видеозапись занятия.
- Проверка статистических гипотез, концепция p-value (слайды).
- Меры связи для данных в количественной/порядковой шкале (слайды).
- Практикум 5: задание, ROSSTAT, WIKI, решения ROSSTAT, решения WIKI.
- Онлайн-калькулятор для статистических критериев.
Неделя 6. Меры связи. Критерий хи-квадрат.
- Видеозапись занятия.
- Меры связи: проверка значимости коэффициентов корреляции и критерий хи-квадрат (слайды, вычисления для критерия хи-квадрат).
- Практикум 6: задание, SALARIES, WIKI, решения для SALARIES, решения для WIKI.
Неделя 7. Линейная регрессия. Иерархический кластерный анализ.
- Файлы для работы: flats.csv, Salaries-small.csv.
- Google Colab для R: ссылка.
Домашние задания
Домашнее задание | Дедлайн |
---|---|
Домашнее задание 1 | 11.09 23:59 |
Домашнее задание 2 | 22.09 23:59 |
Домашнее задание 3 | 02.10.23:59 |
Домашнее задание 4 | 13.10 23:59 |
Домашнее задание 5 | 22.10 23:59 |
Дополнительные материалы
Работа с данными в Python
Ниже приведены примеры работы с данными в облачной версии Jupyter Notebook – среде Google Colab. При желании можно установить дистрибутив Anaconda и использовать Jupyter Notebook локально (инструкция по работе). Кроме вводных видео, здесь собраны материалы разных курсов по Python: 1, 2.
Блок 1: введение в работу с данными
- Введение в Google Colab, загрузка файла с данными, базовое описание данных (видео).
- Группировка и агрегирование данных, применение собственных функций (видео).
- Выбор столбцов и фильтрация строк в таблице (видео).
- Больше про работу с датафреймами pandas: часть 1 , часть 2, часть 3, файл с данными firtree.csv.
Блок 2: обработка, визуализация и анализ данных
- Файл wiki.csv, файл с описанием данных.
- Доверительные интервалы, проверка гипотез, коэффициенты корреляции (читать, скачать).
- Визуализация данных с matplotlib (читать, скачать).
Работа с данными в R
Для работы с R можно использовать облачный ресурс RStudio Cloud. Для работы на своем компьютере необходимо установить (именно в таком порядке): R и RStudio. Ссылки для скачивания:
- R: для Windows, для Mac OS (файл R-4.2.1.pkg);
- RStudio: для разных систем.
Инструкция по работе с RStudio (файл). Язык разметки Markdown в RStudio (конспект). Кроме вводных видео, здесь собраны материалы курсов с использованием R: 1, 2, 3.
Блок 1: введение в работу с данными
- Введение в RStudio Cloud, загрузка файла с данными, базовое описание данных (видео).
- Файлы firtree.csv, test1.xls, test2.csv.
- Загрузка данных и их описание (конспект, код),
- Основы работы с датафреймами (конспект,код).
Блок 2: визуализация и анализ данных