1Напоминание: теория вероятностей и статистика

1.1Случайные величины

1.1.1Стандартное определение

Стадартное определение случайной величины выглядит так. Рассмотрим вероятностное пространство , где — пространство элементарных исходов, — множество событий (измеримых множеств) и — вероятностная мера (то есть ). Случайной величиной называется функция , измеримая относительно (то есть для любого интервала , ).

Это определение хорошо своей математической строгостью, но на практике обычно всё происходит наоборот — не случайная величина определяется по вероятностному пространству, а вероятностное пространство строится по системе случайных величин.

1.1.2Случайная величина как мера на

В простейшем случае об этом можно думать так. Случайная величина задаёт вероятностную меру на :
где — некоторое множество из борелевской сигма-алгебры на (то есть сигма-алгебры, порождённой интервалами). Если нас интересует только случайная величина , и никаких других случайных величин нет, можно теперь забыть про исходное вероятностное пространство и думать про вероятностное пространство . Иными словами, вместо того, чтобы генерировать исход в соответствии с мерой , а потом подставлять его в функцию , чтобы получить число , мы можем сразу выбрать случайное вещественное число в соответствии с мерой и считать его значением случайной величины .

Кстати, мера однозначно определяется функцией распределения:

Если функция распределения дифференцируема, мера является абсолютно непрерывной относительно меры Лебега и у неё есть плотность:
Расписать определение производной здесь полезно, чтобы понять вероятностный смысл плотности: это вероятность, что значение случайной величины попадёт в маленький промежуток, делённая на длину этого промежутка.

По плотности можно восстановить меру с помощью интегрирования:

Если нас интересует только одна случайная величина и больше ничего, достаточно задать её функцию распределения, а если случайная величина абсолютно непрерывна, то достаточно задать плотность, после этого можно исследовать всевозможные свойства этой случайной величины.

1.1.3Система случайных величин

Если же нас интересует не одна случайная величина, а несколько, построение немножко усложняется: задать распределение каждой случайной величины недостаточно.

Пример 1. Пусть — случайная величина с равномерным распределением на отрезке (то есть , где — функция-индикатор). Пусть , а — ещё одна случайная величина величина с равномерным распределением на отрезке , независимая от . (Можно думать об этом так: у нас есть программа, генерирующая случайные числа от 0 до 1. Значения и получаются независимыми запусками этой программы, а значение вычисляется по .) Тогда все три случайные величины по отдельности имеют одно и то же распределение — равномерное на отрезке. Но при этом пара случайных величин — это совсем не то же самое, что пара случайных величин .

Рассмотрим наиболее простой случай: пусть у нас есть две случайные величины и , заданные на одном и том же вероятностном пространстве. Рассмотрим их совместное распределение, то есть меру на , заданную следующим образом:

для любых борелевских множеств (на прямой) и .

Меру можно задавать функцией совместного распределения:

Если абсолютно непрерывна относительно меры Лебега, существует совместная плотность

Вопрос 1. Как выразить совместную плотность через функцию совместного распределения?

Таким образом, если нас интересует пара случайных величин, можно рассматривать вероятностное пространство .

Вопрос 2. Пусть пара случайных величин задаётся совместной плотностью . Допустим, мы хотим «забыть» про и узнать, как распределена величина , то есть найти (в соответствии с определением в (1.1)). Как это сделать?
  Узнать ответ

Верный ответ. Нужно рассмотреть маргинальную плотность:

затем воспользоваться (1.4)

1.2Условные распределения

Напомним определение условной вероятности.

Определение 1. Пусть и — некоторые события. Условной вероятностью при условии называется

Определение 2. События и называются независимыми, если . Это условие эквивалентно и .

Определение 3. Две случайные величины и называются независимыми, если для любых двух борелевских множеств и ,

Это определение согласуется с определением независимости событий, приведённом выше.

Кстати, если случайных величин больше двух, можно ввести определение независимости в совокупности.

Определение 4. Случайные величины называются независимыми в совокупности, если для любых борелевских множеств ,

Вернёмся к случаю, когда у нас есть пара случайных величин и и мы хотим определить распределение случайной величины при условии, что значение равно какому-то конкретному числу , то есть задать такую штуку:

Если — дискретная случайня величина, можно применить формулу (1.8), но если распределение не является дискретным, могут вознкнуть проблемы, потому что вероятность в этом случае может быть нулевой. Но если у нас есть совместная плотность, то эту трудность можно обойти.

Определим условную плотность следующим образом:

Тогда условное распределение задаётся с помощью интегрирования:
Вообще, условное распределение — это хитрая штука; если есть просто какая-то абстрактная вероятностная мера, соответствующая условная мера относительна подмножества меры нуль может не быть корректно определена, см. парадокс Бореля — Колмогорова. Но мы с такими проблемами сталкиваться ну будем, потому что нас интересуют не произвольные меры, а заданные случайными величинами, причём случайные величины либо дискретные, либо абсолютно непрерывные.

1.2.1Пример: линейная модель

Напомним определение нормального распределения. Случайная величина распределена по нормальному закону с матожиданием и дисперсией , если её плотность задаётся следующим образом:
Пишут:
Распределение называется стандартным нормальным.

Пример 2. Рассмотрим пару случайных величин , заданную следующим образом. Величина распределена по стандартному нормальному закону:
Зафиксируем некоторое число и рассмотрим вспомогательную случайную величину , независимую от .

Положим

Найдём совместную плотность . Для этого воспользуемся уравнением (1.9), поменяем в нём местами и и выразим . Имеем:
По определению стандартной случайной величины,
Пусть . В этом случае . Функция плотности для получается из функции плотности для сдвигом на константу . То есть имеет нормальное распределение с матожиданием и дисперсией . Это часто записывают так:
Таким образом,
Имеем:

Вопрос 3. Как выглядит график и линии уровня совместной плотности? Как они зависят от ? Что поисходит при ?

1.3Условное матожидание

Определение 5. Математическим ожиданием (средним) случайной величины называется её интеграл по всему вероятностному пространству:
На практике обычно используется такая форма:
Если случайная величина имеет плотность, этот интеграл записывается в виде

Пусть теперь есть две случайные величины, и , и у них есть совместная плотность .

Рассмотрим такую функцию от числа :

Для каждого , величина — это какое-то число (не случайная величина, а честное число). Она обычно обозначается так:
Рассмотрим теперь . Если взять случайную величину и подставить её в какую-то обычную функцию, получится новая случайная величина. В данном случае — случайная величина, и — новая случайная величина, которая называется условным матожиданием. Обозначается

1.4Элементы статистики

1.4.1Выборки

Пусть есть случайная величина , распределение которой нам в точности неизвестно, и пусть у нас есть выборка из этой случайной величины, то есть последовательность чисел , полученных как независимые реализации случайной величины . Мы хотим, глядя на выборку, что-то сказать про распределение .

Пример 3. Допустим, у нас есть монетка, которая падает орлом с вероятностью и решкой с вероятностью . Подкинем эту монетку раз и будем каждый раз при выпадении орла записывать число , а при выпадении решки число . Получим последовательность из нулей и единиц. Эта последовательность является выборкой из случайной величины , имеющей распределение , .

Пример 4. Рассмотрим ту же монетку, что и в предыдущем примере, но свяжем с ней другую случайную величины. Пусть — число выпавших орлов при пяти подбрасываниях нашей монетки. Сделаем серий по пять подбрасываний и после каждой серии запишем, сколько орлов в ней выпало. Снова получим чисел , но теперь каждый — это не ноль или единица, а целое число от нуля до пяти. Они являются независимыми реализациями случайной величины , имеющей биномиальное распределение : .

Пример 5. Вместо подбрасывания монетки можно считать, что значения генерирует компьютер с помощью специальной программы — генератора случайных чисел. Тогда — результаты независимого запуска этой программы.

Про числа можно ещё думать так. Пусть у нас есть случайные величины , независимые в совокупности, и распределённые так же, как . Тогда весь набор является одной реализацией многомерной случайной величины . Часто в рассуждениях не делают разницу между случайными величинами и их конкретными реализациями: при теоретическом анализе, выборка — это многомерная случайная величина, при практических применениях — это конкретный набор данных, который нам нужно исследовать, про который мы верим, что он получен как реализация соответствующей случайной величины.

1.4.2Статистические оценки и их свойства

1.4.2.1Выборочное среднее

Вернёмся к примеру с монеткой. Пусть — случайная величина, равная 1 при выпадении орла и 0 при выпадении решки, — вероятность выпадения орла. Её матожидание равно . Пусть мы получили такую выборку из :
Что мы можем сказать про ?

Рассмотрим функцию от выборки, называемую выборочным средним. Это просто среднее арифметическое:

Согласно закону больших чисел,
по вероятности. (Здесь мы снова считаем, что — это случайные величины.) Это значит, что выборочное среднее можно использовать для оценки матожидания случайной величины, из которой взята выборка. В нашем примере, чтобы оценить нужно посчитать, какую долю составляют единицы в нашей выборке.

Соотношение (1.13) является частным случаем утверждения о состоятельности оценки. Общее определение выглядит так.

Определение 6. Пусть — выборка из случайной величины , распределение которой зависит от параметра . Говорят, что функция является состоятельной оценкой для , если для любого фиксированного значения ,
по вероятности при .

Таким образом, соотношение (1.13) утверждает, что является состоятельной оценкой для матожидания .

Грубо говоря, состоятельность означает, что чем больше размер выборки, тем лучше наша оценка приближает истинное значение параметра распределения.

Помимо состоятельности нас будет интересовать ещё одно свойство: несмещённость. Напомним, что мы считаем случайными величинами. Зафиксируем и рассмотрим матожидание :

где в последней сумме одинаковых слагаемых.

Иными словами, это означает следующее. Зафиксируем некоторое и сгенерируем много-много выборок длины . Для каждой посчитаем выборочное среднее. Затем посчитаем среднее этих средних. Полученное среднее будет близко к истинному матожиданию .

Общее определение звучит так:

Определение 7. Функция от выборки называется несмещённой оценкой для параметра , если

Вопрос 4. В качестве оценки для матожидания можно использовать не только выборочное среднее. Пусть . Являетя ли состоятельной оценкой для матожидания? Несмещённой оценкой?

Вопрос 5. Рассмотрим функцию , где — некоторые константы. При каких эта функция будет несмещённой оценкой для матожидания?

1.4.2.2Выборочная дисперсия

Определение 8. Дисперсией случайной величины называется матождание квадрата её отклонения от своего матожидания:

Оценивать по выборке можно не только матожидание, но и другие параметры распределения — например, её дисперсию. Естественной оценкой для дисперсии является выборочная дисперсия. Обозначим .

Можно показать (и легко поверить), что выборочная дисперсия является состоятельной оценкой для истинной дисперсии . Однако, является ли она несмещённой?

Оказывается, что нет.

Вопрос 6. Докажите это.

Оказывается, несмещнной оценкой для дисперсии является так называемая исправленная выборочная дисперсия, отличающаяся от обычной тем, что деление происходит на , а не на :

1.4.3Дисперсия оценок

Пусть у нас есть две состоятельные несмещённые оценки для какого-нибудь параметра (например, матожидания). Какая из этих оценок «лучше»? Та, которая меньше ошибается, то есть меньше отклоняется от своего среднего значения (которое, в силу предположения несмещённости, равно истинному значению параметра), то есть та, у которой меньше дисперсия.

Найдём дисперсию . Для этого напомним свойства дисперсии: где — константа (неслучайная величина), и независимы.

Итак, имеем: То есть дисперсия оценки среднего уменьшается линейно с ростом размера выборки .

Вопрос 7. Рассмотрим функцию . При каких эта функция является несмещённой оценкой для матожидания, имеющей наименьшую дисперсию?