Основы работы с количественными данными: различия между версиями

Материал из MathINFO
Перейти к навигации Перейти к поиску
 
(не показано 29 промежуточных версий этого же участника)
Строка 31: Строка 31:
  
 
Что почитать по теме: А.Макаров и др. «Задачник по математической статистике для студентов социально-гуманитарных и управленческих специальностей» (глава 2.3), M.Sternstein "AP Statistics" (topic 3), Шипунов и др. Наглядная статистика. Используем R! (главы 1-3).
 
Что почитать по теме: А.Макаров и др. «Задачник по математической статистике для студентов социально-гуманитарных и управленческих специальностей» (глава 2.3), M.Sternstein "AP Statistics" (topic 3), Шипунов и др. Наглядная статистика. Используем R! (главы 1-3).
 +
 +
=== Неделя 3. Визуализация данных. Основные понятия теории вероятностей и статистики. ===
 +
 +
* Визуализация данных: графики распределения качественных данных.
 +
* Практикум 3: [https://docs.google.com/spreadsheets/d/1LyULbXCx3nY6FJQtJYqZ10tNMhdaJ7xQGIFAUTX5h0s/edit?usp=sharing таблица], [https://www.dropbox.com/s/3wj3ydx9lhytwe5/%D0%9F%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D1%83%D0%BC%2003.pdf?dl=0 задание], [https://docs.google.com/spreadsheets/d/1ThaJ2AFCtBoAn7-QFE1CMycUd-H23jbAWyf3GhF-zG0/edit?usp=sharing решение].
 +
* Введение в теорию вероятностей: события и вероятности, случайные величины ([https://www.dropbox.com/s/1w0js4avcpryp5f/probability.pdf?dl=0 конспект]).
 +
 +
Что почитать по теме: А.Макаров. А.Пашкевич. «Задачник по теории вероятностей для студентов социально-гуманитарных и управленческих специальностей» (разделы 2-3, 6), Шипунов и др. Наглядная статистика. Используем R! (главы 1-3).
 +
 +
=== Неделя 4. Введение в статистическое оценивание. Доверительные интервалы. ===
 +
 +
* [https://www.dropbox.com/sh/06ppxe35skn074t/AABLPiV8irAONpXi1wVY1Pi2a?dl=0 Видеозапись] занятия.
 +
* Ещё немного о случайных величинах: описание непрерывных случайных величин ([https://www.dropbox.com/s/jtj94o9olxc2spn/distributions.pdf?dl=0 конспект]).
 +
* Введение в статистическое оценивание. Статистические законы. Доверительные интервалы ([https://www.dropbox.com/s/cw2ndrxwijxbq3k/06-%D0%A1%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5%20%D0%BE%D1%86%D0%B5%D0%BD%D0%B8%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5.pdf?dl=0 слайды]), [https://rpubs.com/AllaT/psycho-stat-laws симуляции] в R.
 +
* [https://www.rotmistrov.com/intrvl Онлайн-калькулятор] для доверительных интервалов, [https://rpsychologist.com/d3/ci/ визуализация] доверительных интервалов.
 +
 +
Что почитать по теме: А.Макаров и др. «Задачник по математической статистике для студентов социально-гуманитарных и управленческих специальностей» (главы 3.3-3.4), Ч.Уилан «Голая статистика» (главы 8, 10), M.Sternstein "AP Statistics" (topics 12-13).
 +
 +
=== Неделя 5. Проверка статистических гипотез. Меры связи. ===
 +
 +
* [https://www.dropbox.com/sh/046t9wphzjg3247/AAC6P5DZDY_E5f9BvhD4c0c1a?dl=0 Видеозапись] занятия.
 +
* Проверка статистических гипотез, концепция p-value ([https://www.dropbox.com/s/6ndemkm05x1rgfq/07-%D0%9F%D1%80%D0%BE%D0%B2%D0%B5%D1%80%D0%BA%D0%B0%20%D0%B3%D0%B8%D0%BF%D0%BE%D1%82%D0%B5%D0%B7.pdf?dl=0 слайды]).
 +
* Меры связи для данных в количественной/порядковой шкале ([https://www.dropbox.com/s/g56w6g6wd6v2ovk/08-%D0%9C%D0%B5%D1%80%D1%8B%20%D1%81%D0%B2%D1%8F%D0%B7%D0%B8.pdf?dl=0 слайды]).
 +
* Практикум 5: [https://www.dropbox.com/s/0pit0cue9yzo2fs/%D0%9F%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D1%83%D0%BC%2005.pdf?dl=0 задание], [https://docs.google.com/spreadsheets/d/1VeXCzlvzPkp2iXFPZTPlp3V6i83uoeavHlkPuYlzCec/edit?usp=sharing ROSSTAT], [https://docs.google.com/spreadsheets/d/10UQcTetw2bsOWk4H7btQ6gZ3OS57UYME88ekFwl3NC8/edit?usp=sharing WIKI], [https://docs.google.com/spreadsheets/d/1q4hu98BIhsuJdeZ9nBZD3f8h4IRli2Eo2Oph4xJ2cj8/edit?usp=sharing решения] ROSSTAT, [https://docs.google.com/spreadsheets/d/1WvI9y7DdhGuqMURyIn8xKM_HNEjIdMw39jwihcPW7zQ/edit?usp=sharing решения] WIKI.
 +
* [https://www.socscistatistics.com/tests/ Онлайн-калькулятор] для статистических критериев.
 +
 +
=== Неделя 6. Меры связи. Критерий хи-квадрат. ===
 +
 +
* [https://www.dropbox.com/sh/ck64bvamgozem4l/AAB58Ns9l9N96LGh0eKtThPta?dl=0 Видеозапись] занятия.
 +
* Меры связи: проверка значимости коэффициентов корреляции и критерий хи-квадрат (слайды, [https://docs.google.com/spreadsheets/d/1a58fIflfF7mbqfxESvNWbsVbna3ja_bSDpndlteo55k/edit?usp=sharing вычисления] для критерия хи-квадрат).
 +
* Практикум 6: [https://www.dropbox.com/s/c2io1on1rz0zj20/%D0%9F%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D1%83%D0%BC%2006.pdf?dl=0 задание], [https://docs.google.com/spreadsheets/d/1lYNGqGcvhs0VI6SHcVK8jmZPuJL-u8Wf5Twq6Olr1g8/edit?usp=sharing SALARIES], [https://docs.google.com/spreadsheets/d/10UQcTetw2bsOWk4H7btQ6gZ3OS57UYME88ekFwl3NC8/edit?usp=sharing WIKI], [https://docs.google.com/spreadsheets/d/1rQ1ISEKpmYo1pcsyzQwe4ccwWtsTaiMw77oB0ositSQ/edit?usp=sharing решения] для SALARIES, [https://docs.google.com/spreadsheets/d/1U4J3wwlfUAT7m6tMo6txXfIn-i9yAZvQuoFOySGASt4/edit?usp=sharing решения] для WIKI.
 +
 +
=== Неделя 7. Линейная регрессия. Иерархический кластерный анализ. ===
 +
 +
* Файлы для работы: [https://www.dropbox.com/s/4v0ynrrao5rnnpi/flats.csv?dl=0 flats.csv], [https://www.dropbox.com/s/l2cnsbfcnaheey3/Salaries-small.csv?dl=0 Salaries-small.csv].
 +
* Google Colab для R: [https://colab.research.google.com/notebook#create=true&language=r ссылка].
  
 
== Домашние задания ==
 
== Домашние задания ==
Строка 40: Строка 76:
 
| [https://www.dropbox.com/s/4k886jl2o6xr7r4/%D0%94%D0%97-01.pdf?dl=0 Домашнее задание 1] || 11.09 23:59
 
| [https://www.dropbox.com/s/4k886jl2o6xr7r4/%D0%94%D0%97-01.pdf?dl=0 Домашнее задание 1] || 11.09 23:59
 
|-
 
|-
| Домашнее задание 2 ||  
+
| [https://www.dropbox.com/s/ctjv1kpmde1m75x/%D0%94%D0%97-02.pdf?dl=0 Домашнее задание 2] || 22.09 23:59
|-
 
| Домашнее задание 3 ||
 
 
|-
 
|-
| Домашнее задание 4 ||  
+
| [https://www.dropbox.com/s/9ja9259mdl8r0s4/%D0%94%D0%97-03.pdf?dl=0 Домашнее задание 3] || 02.10.23:59
 
|-
 
|-
| Домашнее задание 5 ||  
+
| [https://www.dropbox.com/s/qxs9t4ks3zsfxh5/%D0%94%D0%97-04.pdf?dl=0 Домашнее задание 4] || 13.10 23:59
 
|-
 
|-
| Домашнее задание 6 ||  
+
| [https://www.dropbox.com/s/jirtc7od7es63io/%D0%94%D0%97-05.pdf?dl=0 Домашнее задание 5] || 22.10 23:59
 
|}
 
|}
  
 
== Дополнительные материалы ==
 
== Дополнительные материалы ==
  
TBA
+
=== Работа с данными в Python ===
 +
 
 +
Ниже приведены примеры работы с данными в облачной версии Jupyter Notebook – среде [https://colab.research.google.com/ Google Colab]. При желании можно установить дистрибутив [https://www.anaconda.com/products/individual Anaconda] и использовать Jupyter Notebook локально ([https://allatambov.github.io/icef/seminars/instruction-JN.pdf инструкция] по работе). Кроме вводных видео, здесь собраны материалы разных курсов по Python: [http://math-info.hse.ru/s22/c 1], [http://math-info.hse.ru/s21/n 2].
 +
 
 +
Блок 1: введение в работу с данными
 +
 
 +
* Введение в Google Colab, загрузка файла с данными, базовое описание данных ([https://www.dropbox.com/s/83ixm87dpfdm6r3/01-intro-data-load.mp4?dl=0 видео]).
 +
* Группировка и агрегирование данных, применение собственных функций ([https://www.dropbox.com/s/9bjhjnexxgh45h2/02-data-group-agg.mov?dl=0 видео]).
 +
* Выбор столбцов и фильтрация строк в таблице ([https://www.dropbox.com/s/qi0vwpz7y2ar69t/03-filtering.mov?dl=0 видео]).
 +
* Больше про работу с датафреймами pandas: [https://nbviewer.jupyter.org/github/allatambov/allatambov.github.io/blob/master/icef/seminars/pandas-01.ipynb часть 1 ], [https://nbviewer.jupyter.org/github/allatambov/allatambov.github.io/blob/master/icef/seminars/pandas-02.ipynb часть 2], [https://nbviewer.jupyter.org/github/allatambov/allatambov.github.io/blob/master/icef/seminars/pandas-03.ipynb часть 3], файл с данными [https://allatambov.github.io/pydj/seminars/firtree.csv firtree.csv].
 +
 
 +
Блок 2: обработка, визуализация и анализ данных
 +
 
 +
* Файл [https://www.dropbox.com/s/9imk6146ye0mxio/wiki.csv?dl=0 wiki.csv], [https://github.com/allatambov/PyDataAnalysis/blob/main/wiki_codebook.pdf файл] с описанием данных.
 +
* Доверительные интервалы, проверка гипотез, коэффициенты корреляции ([https://nbviewer.org/github/allatambov/PyDataAnalysis/blob/main/seminar02-recap.ipynb читать], [https://www.dropbox.com/s/fvqey4qvaj500qq/seminar02-recap.ipynb?dl=0 скачать]).
 +
* Визуализация данных с matplotlib ([https://nbviewer.org/github/allatambov/PyDataAnalysis/blob/main/seminar03-visualisation.ipynb читать], [https://www.dropbox.com/s/bd3i9g6q2uxetnn/seminar03-visualisation.ipynb?dl=0 скачать]).
 +
 
 +
=== Работа с данными в R ===
 +
 
 +
Для работы с R можно использовать облачный ресурс [https://rstudio.cloud/ RStudio Cloud]. Для работы на своем компьютере необходимо установить (именно в таком порядке): R и RStudio. Ссылки для скачивания:
 +
 
 +
* R: [https://cran.r-project.org/bin/windows/base/ для Windows], для [https://cran.r-project.org/bin/macosx/ Mac OS] (файл R-4.2.1.pkg);
 +
* RStudio: для [https://www.rstudio.com/products/rstudio/download/#download разных] систем.
 +
 
 +
Инструкция по работе с RStudio ([https://allatambov.github.io/rprog/instruction-rstudio.pdf файл]). Язык разметки Markdown в RStudio ([https://rpubs.com/AllaT/rprog-intro-rmd конспект]). Кроме вводных видео, здесь собраны материалы курсов с использованием R: [http://math-info.hse.ru/s20/e 1], [http://math-info.hse.ru/s21/g 2], [http://math-info.hse.ru/s22/4 3].
 +
 
 +
Блок 1: введение в работу с данными
 +
 
 +
* Введение в RStudio Cloud, загрузка файла с данными, базовое описание данных (видео).
 +
* Файлы [https://allatambov.github.io/rprog/data/firtree.csv firtree.csv], [https://github.com/allatambov/PyDat-0919/blob/master/lectures-seminars/7-pandas/test1.xlsx test1.xls], [https://github.com/allatambov/PyDat-0919/blob/master/lectures-seminars/7-pandas/test2.csv test2.csv].
 +
* Загрузка данных и их описание ([https://allatambov.github.io/rprog21/r-data-desc.pdf конспект], [https://raw.githubusercontent.com/allatambov/allatambov.github.io/master/rprog21/r-data-desc.Rmd код]),
 +
* Основы работы с датафреймами ([https://allatambov.github.io/rprog/pdf/rdata-handle.pdf конспект],[https://raw.githubusercontent.com/allatambov/allatambov.github.io/master/rprog21/rdata-handle.R код]).
 +
 
 +
Блок 2: визуализация и анализ данных
 +
 
 +
* Визуализация данных и доверительные интервалы в R ([https://raw.githubusercontent.com/allatambov/allatambov.github.io/master/twimc22/05-04.R код], [https://allatambov.github.io/twimc22/conf-int-r.pdf конспект]).
 +
* Проверка статистических гипотез в R ([https://raw.githubusercontent.com/allatambov/allatambov.github.io/master/twimc22/hypo-test.R код], [https://allatambov.github.io/twimc22/hypo-r-tests.pdf конспект]).
 +
* Меры связи: коэффициенты корреляции Пирсона и Спирмена ([https://raw.githubusercontent.com/allatambov/allatambov.github.io/master/twimc22/assoc.R код], [https://allatambov.github.io/twimc22/assoc-r.pdf конспект]).
 +
* Коэффициент корреляции Пирсона и парная линейная регрессия ([https://www.dropbox.com/s/ngwwhm0w54hpzau/regression-practice01.R?dl=0 код],  [https://github.com/allatambov/IntroToReg22/blob/main/practice-01.pdf конспект], [https://raw.githubusercontent.com/allatambov/IntroToReg22/main/canada.csv canada.csv]).

Текущая версия на 01:30, 16 октября 2022

Дорогие студенты!

Это страница обязательного курса «Основы работы с количественными данными», читаемого на программе «Коммуникации в государственных структурах и НКО» 1 курса магистратуры в 1 модуле 2022-2023 учебного года.

Семинары ведёт: Тамбовцева Алла Андреевна.

Правила игры

  • Формула оценки: Итог = 0.5 * Домашние задания + 0.2 * Самостоятельная работа + 0.3 * Экзамен.
  • Программа курса, пояснения по формам контроля.

Программное обеспечение

В рамках практической части курса используются Google Sheets, для работы достаточно иметь аккаунт Gmail.

Материалы занятий

Неделя 1. Введение в анализ данных. Описание данных.

  • Введение в анализ данных: шкалы данных, интегральные индексы (слайды).
  • Описание данных: введение в выборочные обследования, описательные статистики (слайды).
  • Практикум 1: задания, решения.

Что почитать по теме: Ч.Уилан «Голая статистика» (главы 1-3), А.Макаров и др. «Задачник по математической статистике для студентов социально-гуманитарных и управленческих специальностей» (главы 2.1-2.2), M.Sternstein "AP Statistics" (topic 2).

Неделя 2. Описание данных. Визуализация данных.

  • Описание данных: меры изменчивости, данные в неколичественных шкалах (слайды).
  • Визуализация данных: принципы визуализации, графики распределения количественных данных (слайды).
  • Практикум 2: таблица, задание, решение.

Что почитать по теме: А.Макаров и др. «Задачник по математической статистике для студентов социально-гуманитарных и управленческих специальностей» (глава 2.3), M.Sternstein "AP Statistics" (topic 3), Шипунов и др. Наглядная статистика. Используем R! (главы 1-3).

Неделя 3. Визуализация данных. Основные понятия теории вероятностей и статистики.

  • Визуализация данных: графики распределения качественных данных.
  • Практикум 3: таблица, задание, решение.
  • Введение в теорию вероятностей: события и вероятности, случайные величины (конспект).

Что почитать по теме: А.Макаров. А.Пашкевич. «Задачник по теории вероятностей для студентов социально-гуманитарных и управленческих специальностей» (разделы 2-3, 6), Шипунов и др. Наглядная статистика. Используем R! (главы 1-3).

Неделя 4. Введение в статистическое оценивание. Доверительные интервалы.

Что почитать по теме: А.Макаров и др. «Задачник по математической статистике для студентов социально-гуманитарных и управленческих специальностей» (главы 3.3-3.4), Ч.Уилан «Голая статистика» (главы 8, 10), M.Sternstein "AP Statistics" (topics 12-13).

Неделя 5. Проверка статистических гипотез. Меры связи.

Неделя 6. Меры связи. Критерий хи-квадрат.

Неделя 7. Линейная регрессия. Иерархический кластерный анализ.

Домашние задания

Домашнее задание Дедлайн
Домашнее задание 1 11.09 23:59
Домашнее задание 2 22.09 23:59
Домашнее задание 3 02.10.23:59
Домашнее задание 4 13.10 23:59
Домашнее задание 5 22.10 23:59

Дополнительные материалы

Работа с данными в Python

Ниже приведены примеры работы с данными в облачной версии Jupyter Notebook – среде Google Colab. При желании можно установить дистрибутив Anaconda и использовать Jupyter Notebook локально (инструкция по работе). Кроме вводных видео, здесь собраны материалы разных курсов по Python: 1, 2.

Блок 1: введение в работу с данными

  • Введение в Google Colab, загрузка файла с данными, базовое описание данных (видео).
  • Группировка и агрегирование данных, применение собственных функций (видео).
  • Выбор столбцов и фильтрация строк в таблице (видео).
  • Больше про работу с датафреймами pandas: часть 1 , часть 2, часть 3, файл с данными firtree.csv.

Блок 2: обработка, визуализация и анализ данных

Работа с данными в R

Для работы с R можно использовать облачный ресурс RStudio Cloud. Для работы на своем компьютере необходимо установить (именно в таком порядке): R и RStudio. Ссылки для скачивания:

Инструкция по работе с RStudio (файл). Язык разметки Markdown в RStudio (конспект). Кроме вводных видео, здесь собраны материалы курсов с использованием R: 1, 2, 3.

Блок 1: введение в работу с данными

Блок 2: визуализация и анализ данных

  • Визуализация данных и доверительные интервалы в R (код, конспект).
  • Проверка статистических гипотез в R (код, конспект).
  • Меры связи: коэффициенты корреляции Пирсона и Спирмена (код, конспект).
  • Коэффициент корреляции Пирсона и парная линейная регрессия (код, конспект, canada.csv).