5Ещё о линейной регрессии

5.1Напоминание: постановка задачи и метод наименьших квадратов

Наша модель выглядит следующим образом. Есть набор . Мы их считаем фиксированными (неслучайными). Также есть некоторый фиксированный вектор весов . Значения определяются следующим образом:
где — случайные величины со следующими свойствами:
  1. ;
  2. ;
  3. для .
Напомним, что ковариацией случайных величин и называется число
Если случайные величины независимы, их ковариация равна нулю.

Обозначим через матрицу, в которой по строкам записаны векторы . Это матрица с строками и столбцами. Пусть — вектор правильных ответов и — вектор ошибок. Уравнение (5.1) можно записать в матричной форме:

МНК-оценкой для называется вектор , который является решением оптимизационной задачи
Если столбцы матрицы линейно независимы, то решение этой задачи является единственным и его можно найти с помощью формулы

Замечание 1. В предыдущей лекции мы нашли МНК-оценку как оценку наибольшего правдоподобия в предположении, что остатки распределены по нормальному закону. Сейчас мы не делаем такого предположения, однако продолжаем рассматривать МНК-оценку. Оказывается, она обладает множеством хороших свойств даже в том случае, когда остатки не являются нормальными.

5.1.1Геометрическая интерпретация

Рассмотрим пространство . Обозначим столбцы матрицы через , они являются элементами . Рассмотрим множество . Оно задаёт -мерное линейное подпространство в пространстве , натянутое на столбцы матрицы . Оптимизационная задача (5.2) состоит в нахождении точки , ближайшей к точке . Чтобы найти такую точку, достаточно спроектировать на ортогонально. Чтобы найти , нужно разложить по базису в , составленному из столбцов матрицы .

Эта интерпретация часто бывает полезна, но про некоторые вещи с её помощью невозможно думать: например, невозможно себе представить, что значит «найти предсказание для нового (отличного от тех, что есть в обучающей выборке)».

5.2Несмещённость МНК-оценки

Утверждение 1. МНК-оценка является несмещённой, то есть

Доказательство. Для доказательства нам потребуются две вспомогательные леммы (очень простые).

Лемма 1. Матожидание коммутирует со скалярным произведением на фиксированный вектор, то есть для любого случайного вектора и постоянного вектора

Доказательство леммы. Это переформулировка линейности матожидания. Пусть и . Тогда

Лемма 2. Матожидание коммутирует с умножением на фиксированную матрицу, то есть для любого случайного вектора и постоянной матрицы с столбцами справедливо:

Доказательство леммы. Каждая компонента вектора является скалярным произведением строки матрицы на вектор . Дальше применяем лемму 1 покомпонентно и получаем требуемое.

Вернёмся к доказательству утверждения. Имеем: В предпоследнем переходе мы воспользовались леммой 2, в последнем — предположением о том, что матожидание равно нулю.

5.3Дисперсии и ковариации МНК-оценки

Из лекции 3 мы помним, что на ожидаемую ошибку для новых наблюдений влияют три фактора: шум в данных, систематическая ошибка предсказания (смещение) и разброс предсказания. Первый фактор мы никак не контролируем. Только что мы показали, что метод наименьших квадратов даёт несмещённую оценку для коэффициентов, и следовательно (по лемме 1), несмещенную оценку для предсказания. (Напомним, что предсказание для наблюдения с заданным вектором есть скалярное произведение .) Что с разбросом, то есть дисперсией предсказаний?

5.3.1Ковариационная матрица

Чтобы сказать что-то про разброс предсказаний необходимо сначала разобраться с разбросом вектора весов . У числовой случайной величины есть дисперсия. Разброс векторной случайной величины характеризует более сложный объект — ковариационная матрица.

Определение 1. Ковариационной матрицей векторной случайной величины , принимающей значения в , называется матрица, имеющая вид:
Эта матрица является симметричной. Поскольку ковариация случайной величины с самой собой является её дисперсией, на диагонали ковариационной матрицы стоят как раз дисперсии компонент .

Гм-гм, симметричная матрица? Наверняка она задаёт какую-нибудь симметричную билинейную или квадратичную форму! И правда.

Утверждение 2. Ковариационная матрица задаёт билинейную форму. Для любых фиксированных векторов :

Доказательство. В силу линейности, достаточно проверить это утверждение, выбирая в качестве и базисные векторы. Для таких векторов оно проверяется методом пристального вглядывания в формулы.

Следствие 1. Ковариационная матрица задаёт квадратичную форму, значение которой на векторе равно дисперсии скалярного произведения :

5.3.2Пример и геометрическая интерпретация

На рис. 5.1 изображены выборки из двух двумерных нормальных распределений, отличающихся ковариационной матрицей.
Рис. 5.1: Две выборки из двумерного нормального распределения с различными матрицами ковариации
Для левой картинки ковариационная матрица является единичной:
Поскольку на внедиагональном элементе матрицы стоит 0, компоненты вектора оказываются нескоррелированными, что мы и видим по картинке: увеличение горизнтальной компоненты не приводит к систематическому увеличению или уменьшению вертикальной, линейная зависимость отсутствует.

Для правой картинки матрица ковариации равна

Каждая из компонент по отдельности имеет такой же разброс, как и на предыдущей картинке, но зато теперь эти две компоненты не являются независимыми. Ковариация между ними равна и на картинке мы видим явную зависимость между горизонтальной и вертикальной компонентами случайной величины.

Следствие 1 имеет следующую геометрическую интерпретацию. Зафиксируем какой-нибудь вектор , имеющий единичную длину. Тогда показывает, какова дисперсия скалярного произведения . Для единичного вектора указанное скалярное произведение — это длина проекции на . То есть мы измеряем разброс проекции случайного вектора на заданное направление. Например, на правой картинке колебания вдоль направления вектора будет гораздо больше, чем вдоль направления вектора . На левой картинке колебания в любом направлении одинаковы.

5.3.3Ковариационная матрица и линейные операторы

Утверждение 3. Для случайного вектора со значениями в и фиксированной матрицы с столбцами справедливо следующее:

Доказательство. Возьмём произвольный фиксированный вектор . Имеем:
Поскольку равенство выполняется для любого вектора , матрицы между и в левой и правой части цепочки равенств обязаны совпадать.

5.3.4Ковариационная матрица МНК-оценки

Теперь всё готово к тому, чтобы найти ковариационную матрицу для оценки вектора весов . Подставим в формулу (5.3) модель (5.1) и посчитаем ковариационную матрицу:
Сдвиг на постоянный вектор не влияет на ковариации (из каждой компоненты всё равно вычитается её матожидание).
Здесь мы воспользовались утверждением 3. Ковариационная матрица является скалярной (по предположениям модели — все дисперсии равны одному и тому же числу, все ковариации равны нулю) и равна .
Ура! Итак,
Таким образом, зная матрицу мы можем явно найти ковариационную матрицу для (по крайней мере, если верим в предположения нашей модели).

5.3.5Теорема Гаусса — Маркова

Хороша ли МНК-оценка? Теорема Гаусса — Маркова говорит: ой как хороша! По крайней мере, если сравнивать её с другими несмещенными линейными оценками.

Теорема 1. (Гаусса — Маркова) Пусть выполняются условия модели (5.1), матрица имеет независимые столбцы и пусть — какая-то несмещённая линейная оценка для , то есть записывается в виде
где — некоторая фиксированная матрица и
Рассмотрим произвольный фиксированный вектор . Тогда
где , как и прежде, МНК-оценка для .

Иными словами, теорема Гаусса — Маркова говорит, что дисперсия (разброс) любого предсказания для любой линейной несмещённой оценки будет не меньше, чем дисперсия того же предсказания для МНК-оценки.

Заключение теоремы можно также переформулировать таким образом: матрица

всегда неотрицательно определена.

Доказывать эту теорему мы сейчас не будем.

5.3.6Когда смещённая оценка лучше

Казалось бы, мы победили: нашли несмещённую оценку, которая даёт предсказания с минимальной дисперсией. Чего ещё можно хотеть?

Теорема Гаусса — Маркова рассматривает только довольно узкий класс альтернатив — исключительно линейные несмещённые оценки, и показывает, что МНК-оценка оптимальна именно в этом классе. Но это не означает, что она оптимальна с практической точки зрения.

Напомним (второй раз за сегодня), что ожидаемая ошибка на новом наблюдении (то, что мы хотим сделать как можно менше) складывается из шума, смещения и разброса. Мы показали, что МНК-оценка имеет нулевое смещение и минимальный разброс среди оценок с нулевым смещением. Однако, может быть, есть оценка с ненулевым смещением, которая имеет существенно более низкий разброс, и таким образом по сумме выигрывает у МНК-оценки? Оказывается, что так как раз часто и бывает (более того, почти всегда).

Давайте покажем, как это возможно, на простом примере.

Пример 1. Пусть матрица задана следующим образом:
Иными словами, у нас есть всего четыре наблюдения: в точках , , , .

Пусть также истинный вектор весов , то есть истинная зависимость имеет вид:

Ковариационная матрица МНК-оценки имеет вид:
Предсказания в точках и равны
Их разброс равен
Аналогично разброс предсказаний в точках также равен .

Как мы видим, если очень большое, разброс предсказаний МНК-модели может быть также очень большим.

Давайте вместе с МНК-оценкой для исходной модели рассмотрим также МНК-оцеки для упрощённых моделей, которые игнорируют один из или оба признака. Иными словами, мы рассматриваем четыре модели.

  1. Наша исходная модель.
  2. Модель построена по матрице , из которой убрали первый столбец и оставили только второй, зависимость предсказания от первого признака в модели отсутствует. Иными словами, в формуле
    принудительно положили, что .
  3. Модель построена по матрице , из которой убрали второй столбец и оставили только первый. Иными словами, принудительно положили .
  4. Модель вообще игнорирует матрицу и во всех точках делает предсказание . Иными словами, .
Нетрудно показать, что для нашей матрицы необнулённые веса в моделях 2 и 3 совпадают с соответствующими весами исходной модели.

Давайте посчитаем ожидаемую ошибку для всех четырёх моделей. Для этого нужно найти смещение и разброс для каждой модели.

У исходной (первой) модели нулевой смещение предсказаний, а разброс в каждой из четырёх точек равен . Общий разброс равен .

У второй модели в точках смещение остаётся нулевым, а в точках модель предсказывает значение (поскольку мы обнулили ), в то время как правильное значение равно . Значит, смещение (вернее, его квадрат, именно он входит в формулу для ожидаемой ошибки) в каждой из этих точек равно , общее смещение модели . Разброс в точках остаётся равен , а в точках разброс равен нулю, поскольку в этих точках модель предсказывает постоянное число (0). Общий разброс равен .

У третьей модели всё наоборот — в точках смещение равно по 1 (там истинное значение равно 1, а предсказание будет 0), общее смещение равно 2. Общий разброс, как и второй модели, оказывается равен .

Наконец, у четвертой модели смещение равно , а разброс нулевой.

Сведём наши результаты в табличку.

Если , то есть шум в наших данных, маленький (например, равен 0), то самой лучшей моделью будет первая. Однако, если , оказывается выгодно использовать вместо первой модели третью (которая игнорирует второй признак вообще). Конечно, наша модель окажется смещённой, но зато она будет выдавать не такие «шумные» предсказания. Наконец, если дальше увеличивать , в какой-то момент будет выгоднее вообще перейти на четвертую модель, которая верит в то, что всегда равен нулю. (При каком это наступит?)

Итак, на нашем примере мы видим, что бывают ситуации, когда лучше выбрать смещённую модель, которая даёт меньший разброс предсказаний, чем несмещённую модель. Это ещё один пример так называемого bias-variance tradeoff.

Заметим, что в данном случае оптимальной могла стать третья модель, но никак не вторая: её ожидаемая ошибка при любом больше ожидаемой ошибки третьей. Это можно интерпретировать так. В нашей истинной зависимости коэффициенты при обоих признаках были равны между собой. В то же время дисперсии самих признаков существенно различались — дисперсия первого признака была гораздо больше дисперсии второго. При равных дисперсиях шумов в каждой точке, это привело к тому, что дисперсия второй компоненты вектора признаков оказалась гораздо выше дисперсии первой. Поэтому именно ей нам пришлось «пожертвовать», чтобы уменьшить разброс предсказаний. На этой идее основан один из методов отбора признаков — удаление незначимых признаков, то есть таких, у которых слишком большое значение разброса по сравнению со значением самого признака.

Если предполагать, что веса в истинной зависимости примерно одинаковые и остальные предположения выполняются, большую дисперсию будут иметь веса, соответствующие признакам, которые сами имеют маленькую дисперсию (как второй признак в нашем примере). Это ещё один механизм отбора признаков.

На семинаре мы также обсудим регуляризацию — ещё один механизм уменьшения разброса в предсказаниях, который автоматически уменьшает веса, соответствующие признакам с маленькой дисперсией.

Заметим также, что проблемы, связанные со слишком большим разбросом предсказаний могут возникать не только в том случае, когда какой-то из признаков имеет маленькую дисперсию, но и когда какие-то признаки слишком сильно скоррелированы друг с другом. Механизмы, которые здесь работают, полностью аналогичны разобранным в нашем примере. Регуляризация позволяет справиться и с этой проблемой тоже.