Программирование на R

Материал из MathINFO
Перейти к навигации Перейти к поиску

1 модуль

  • Занятие 3: центральная предельная теорема. План семинара и домашнее задание.
  • Занятие 4: проверка статистических гипотез. Тест Стьюдента.
  • Занятие 5: работа с данными. Ящики с усами. Проверка гипотез.

2 модуль

  • Корреляция. Парная линейная регрессия. Коэффициент при независимой переменной (slope) и константа (intercept) [Baayen], §4.3.2.
    • Постановка задачи: нас интересует связь между двумя переменными, относящимися к одним и тем же наблюдениям. Например, для выборки из нескольких десятков человек исследуется связь между возрастом и ростом. Мы можем считать рост зависимой переменной, а возраст независимой, и, проанализировав данные, прийти к выводу, что рост и возраст не являются независимыми и в среднем рост растёт с увеличением возраста. Коэффициент корреляции отвечает на вопрос о том, насколько эта связь «ярко выражена». Регрессия отвечает на вопрос о том, на сколько «в среднем» вырастает человек за один год.
  • Линейная регрессия с несколькими независимыи переменными. Значимость коэффициента регрессии. [1]
    • Задача аналогична предыдущей, но в этом случае есть несколько независимых переменных. Например, для каждого человека в выборке можно рассматривать зависимость его роста от возраста и от роста родителей — здесь будет три независимых переменных, которые войдут в регрессию со своими коэффициентами.
  • Линейная регрессия с dummy-переменными. Кодирование категориальных данных dummy-переменными. Взаимодействия (interactions). Дисперсионный анализ (ANOVA). [Baayen], §4.3.3.
    • Категориальная переменная (или фактор) — это переменная, принимающая конечное множество значений. Примеры таких переменных: пол респондента или его родной язык. Их следует отличать от числовых переменных, принимающих в качестве значений какие-то числа. Dummy-переменная — это переменная, входящая в регрессию и принимающая одно из двух числовых значений: 0 или 1. Любая категориальная переменная, принимающая n различных значений, может быть закондирована (n-1)-й dummy-переменной. Например, если вы исследуете выборку людей, для которых родным может быть русский, английский или испанский языки, то в регрессию можно включить две dummy-переменные: dE и dH. Если для респондента родным является русский, обе переменные примут значение 0, если английский, то dE будет равна 1, в dH — нулём, а если испанский, то dE=0 и dH=1.
  • Нелинейные слагаемые в линейной регрессии. [Baayen], pp. 102-105.
    • Зачастую связь между независимой и зависимой переменными описывается не линейным, а более сложным законом. Например, для описания связи между заработной платой и опытом работы часто используют квадратичный закон: зарплата зависит не только от опыта, но и от его квадрата. На scatter plot это проявляется в том, что точки распределяются не вдоль некоторой прямой, а вдоль некоторой параболы (или более сложной функции).
  • Обобщённые линейные модели (GLM). Логит-регрессия. [Baayen], §6.3.1. См. также конспект принстонского курса WWS509, посвященного GLM, а также этот пример на R.
    • Здесь зависимая переменная принимает одно из двух значений (0 или 1). В этом случае часто рассматривают модель, при которой одно значение принимается случайно (1 принимается с вероятностью p), при этом p зависит от каких-то параметров (по которым и строится регрессия). Поскольку вероятность не может принимать значений вне отрезка [0,1], а линейная функция с ненулевым коэффициентом всегда принимает все вещественные значения, вместо линейной модели часто используется обобщённая линейная модель с логистической функцией связи.
  • Биномиальная логистическая модель. См. здесь.
    • Типовая (искусственная) задача здесь звучит следующим образом. Исследуется, какое слово человек использует чаще: «холодильник» или «рефрижератор», в зависимости от возраста. Предполагается, что люди старшего возраста чаще говорят «холодильник». Для исследования доступна расшифровки интервью с двумя десятками респондентов каждого возраста. Для каждого интервью посчитано, сколько раз там встречается каждое из слов. В разных интервью общее количество слов может быть разным (например, в одном интервью встретилось 3 раза «холодильник» и 1 раз «рефрижератор», а в другом 10 раз «холодильник» и 20 «рефрижератор»). Требуется проверить гипотезу и определить, как сильно влияет возраст на вероятность выбора слова «холодильник».
  • Метод главных компонент. [Baayen], §5.1.1.
    • Данные с большим количеством переменных обычно трудно анализировать. Например, невозможно нарисовать картинку, учитывающую все переменные сразу. Однако часто оказывается, что между переменными есть внутренние связи (например, если переменная X1 большая, то X2 тоже большая, а X3 маленькая). В этом случае можно снизить размерность пространства, рассматривая вместо старых переменных новые, являющиеся некоторой линейной комбинацией старых (например, Y1=X1+X2-X3) и отбрасывая часть переменных, значения которых можно (с некоторой точностью) восстановить по остальным.
  • Иерархический кластерный анализ. [Baayen], §5.1.5.
    • Можно рассмотреть два способа разбить множество измерений на кластеры близко расположенных элементов: «сверху-вниз» (изначально у нас есть один большой кластер, мы его разбиваем на два кластера поменьше, так, чтобы ними было максимальное расстояние, каждый из получающихся кластеров разбиваем в ещё более мелкие кластеры и т.д.) и «снизу вверх» (изначально каждый элемент — это отдельный кластер, затем мы берём два ближайших элемента и соединяем их в один кластер, потом берём два ближайших кластера и соединяем их в новый кластер и т.д.) Эти методы называются методами иерархической кластеризации, поскольку в результате их применения получается не просто набор кластеров, а целая иерархия кластеров (какой кластер на каком шаге получился из каких других кластеров).

Итоговое ДЗ

  • Дедлайн: 22 июня, 12:00.

Экзамен

Сдавать на ilya(at)schurov.com в письме с темой «Экзамен R».

Некоторые данные

Источники

Курс частично основан на книге R.H. Baayen, Analyzing Linguistic Data. A Practical Introduction to Statistics Using R. Черновой вариант книги можно найти здесь. Ссылки выше даются по этой версии файла.

Для работы с некоторыми наборами данных нужно установить пакет languageR, являющийся приложением к указанной книге. Это можно сделать таким образом:

 install.packages("languageR")
 library(languageR)

Чтобы подключиться к набору данных, например, под названием ratings (содержащих различную информацию о некоторых словах английского языка), нужно использовать команду data(ratings).