5Ещё о линейной регрессии
5.1Напоминание: постановка задачи и метод наименьших квадратов
Наша модель выглядит следующим образом. Есть набор . Мы их считаем фиксированными (неслучайными). Также есть некоторый фиксированный вектор весов . Значения определяются следующим образом:- ;
- ;
- для .
Обозначим через матрицу, в которой по строкам записаны векторы . Это матрица с строками и столбцами. Пусть — вектор правильных ответов и — вектор ошибок. Уравнение (5.1) можно записать в матричной форме:
5.1.1Геометрическая интерпретация
Рассмотрим пространство . Обозначим столбцы матрицы через , они являются элементами . Рассмотрим множество . Оно задаёт -мерное линейное подпространство в пространстве , натянутое на столбцы матрицы . Оптимизационная задача (5.2) состоит в нахождении точки , ближайшей к точке . Чтобы найти такую точку, достаточно спроектировать на ортогонально. Чтобы найти , нужно разложить по базису в , составленному из столбцов матрицы .Эта интерпретация часто бывает полезна, но про некоторые вещи с её помощью невозможно думать: например, невозможно себе представить, что значит «найти предсказание для нового (отличного от тех, что есть в обучающей выборке)».
5.2Несмещённость МНК-оценки
Вернёмся к доказательству утверждения. Имеем: В предпоследнем переходе мы воспользовались леммой 2, в последнем — предположением о том, что матожидание равно нулю.∎
5.3Дисперсии и ковариации МНК-оценки
Из лекции 3 мы помним, что на ожидаемую ошибку для новых наблюдений влияют три фактора: шум в данных, систематическая ошибка предсказания (смещение) и разброс предсказания. Первый фактор мы никак не контролируем. Только что мы показали, что метод наименьших квадратов даёт несмещённую оценку для коэффициентов, и следовательно (по лемме 1), несмещенную оценку для предсказания. (Напомним, что предсказание для наблюдения с заданным вектором есть скалярное произведение .) Что с разбросом, то есть дисперсией предсказаний?5.3.1Ковариационная матрица
Чтобы сказать что-то про разброс предсказаний необходимо сначала разобраться с разбросом вектора весов . У числовой случайной величины есть дисперсия. Разброс векторной случайной величины характеризует более сложный объект — ковариационная матрица.Гм-гм, симметричная матрица? Наверняка она задаёт какую-нибудь симметричную билинейную или квадратичную форму! И правда.
5.3.2Пример и геометрическая интерпретация
На рис. 5.1 изображены выборки из двух двумерных нормальных распределений, отличающихся ковариационной матрицей.Для правой картинки матрица ковариации равна
Следствие 1 имеет следующую геометрическую интерпретацию. Зафиксируем какой-нибудь вектор , имеющий единичную длину. Тогда показывает, какова дисперсия скалярного произведения . Для единичного вектора указанное скалярное произведение — это длина проекции на . То есть мы измеряем разброс проекции случайного вектора на заданное направление. Например, на правой картинке колебания вдоль направления вектора будет гораздо больше, чем вдоль направления вектора . На левой картинке колебания в любом направлении одинаковы.
5.3.3Ковариационная матрица и линейные операторы
5.3.4Ковариационная матрица МНК-оценки
Теперь всё готово к тому, чтобы найти ковариационную матрицу для оценки вектора весов . Подставим в формулу (5.3) модель (5.1) и посчитаем ковариационную матрицу:5.3.5Теорема Гаусса — Маркова
Хороша ли МНК-оценка? Теорема Гаусса — Маркова говорит: ой как хороша! По крайней мере, если сравнивать её с другими несмещенными линейными оценками.Иными словами, теорема Гаусса — Маркова говорит, что дисперсия (разброс) любого предсказания для любой линейной несмещённой оценки будет не меньше, чем дисперсия того же предсказания для МНК-оценки.
Заключение теоремы можно также переформулировать таким образом: матрица
Доказывать эту теорему мы сейчас не будем.
5.3.6Когда смещённая оценка лучше
Казалось бы, мы победили: нашли несмещённую оценку, которая даёт предсказания с минимальной дисперсией. Чего ещё можно хотеть?Теорема Гаусса — Маркова рассматривает только довольно узкий класс альтернатив — исключительно линейные несмещённые оценки, и показывает, что МНК-оценка оптимальна именно в этом классе. Но это не означает, что она оптимальна с практической точки зрения.
Напомним (второй раз за сегодня), что ожидаемая ошибка на новом наблюдении (то, что мы хотим сделать как можно менше) складывается из шума, смещения и разброса. Мы показали, что МНК-оценка имеет нулевое смещение и минимальный разброс среди оценок с нулевым смещением. Однако, может быть, есть оценка с ненулевым смещением, которая имеет существенно более низкий разброс, и таким образом по сумме выигрывает у МНК-оценки? Оказывается, что так как раз часто и бывает (более того, почти всегда).
Давайте покажем, как это возможно, на простом примере.
Пусть также истинный вектор весов , то есть истинная зависимость имеет вид:
Как мы видим, если очень большое, разброс предсказаний МНК-модели может быть также очень большим.
Давайте вместе с МНК-оценкой для исходной модели рассмотрим также МНК-оцеки для упрощённых моделей, которые игнорируют один из или оба признака. Иными словами, мы рассматриваем четыре модели.
- Наша исходная модель.
- Модель построена по матрице , из которой убрали первый столбец
и оставили только второй, зависимость предсказания от первого
признака в модели отсутствует. Иными словами, в формуле
- Модель построена по матрице , из которой убрали второй столбец и оставили только первый. Иными словами, принудительно положили .
- Модель вообще игнорирует матрицу и во всех точках делает предсказание . Иными словами, .
Давайте посчитаем ожидаемую ошибку для всех четырёх моделей. Для этого нужно найти смещение и разброс для каждой модели.
У исходной (первой) модели нулевой смещение предсказаний, а разброс в каждой из четырёх точек равен . Общий разброс равен .
У второй модели в точках смещение остаётся нулевым, а в точках модель предсказывает значение (поскольку мы обнулили ), в то время как правильное значение равно . Значит, смещение (вернее, его квадрат, именно он входит в формулу для ожидаемой ошибки) в каждой из этих точек равно , общее смещение модели . Разброс в точках остаётся равен , а в точках разброс равен нулю, поскольку в этих точках модель предсказывает постоянное число (0). Общий разброс равен .
У третьей модели всё наоборот — в точках смещение равно по 1 (там истинное значение равно 1, а предсказание будет 0), общее смещение равно 2. Общий разброс, как и второй модели, оказывается равен .
Наконец, у четвертой модели смещение равно , а разброс нулевой.
Сведём наши результаты в табличку.
Итак, на нашем примере мы видим, что бывают ситуации, когда лучше выбрать смещённую модель, которая даёт меньший разброс предсказаний, чем несмещённую модель. Это ещё один пример так называемого bias-variance tradeoff.
Заметим, что в данном случае оптимальной могла стать третья модель, но никак не вторая: её ожидаемая ошибка при любом больше ожидаемой ошибки третьей. Это можно интерпретировать так. В нашей истинной зависимости коэффициенты при обоих признаках были равны между собой. В то же время дисперсии самих признаков существенно различались — дисперсия первого признака была гораздо больше дисперсии второго. При равных дисперсиях шумов в каждой точке, это привело к тому, что дисперсия второй компоненты вектора признаков оказалась гораздо выше дисперсии первой. Поэтому именно ей нам пришлось «пожертвовать», чтобы уменьшить разброс предсказаний. На этой идее основан один из методов отбора признаков — удаление незначимых признаков, то есть таких, у которых слишком большое значение разброса по сравнению со значением самого признака.
Если предполагать, что веса в истинной зависимости примерно одинаковые и остальные предположения выполняются, большую дисперсию будут иметь веса, соответствующие признакам, которые сами имеют маленькую дисперсию (как второй признак в нашем примере). Это ещё один механизм отбора признаков.
На семинаре мы также обсудим регуляризацию — ещё один механизм уменьшения разброса в предсказаниях, который автоматически уменьшает веса, соответствующие признакам с маленькой дисперсией.
Заметим также, что проблемы, связанные со слишком большим разбросом предсказаний могут возникать не только в том случае, когда какой-то из признаков имеет маленькую дисперсию, но и когда какие-то признаки слишком сильно скоррелированы друг с другом. Механизмы, которые здесь работают, полностью аналогичны разобранным в нашем примере. Регуляризация позволяет справиться и с этой проблемой тоже.