4Линейная регрессия

4.1Проклятие размерности

4.1.1Напоминание: постановка задачи

Напомним базовую постановку задачи «обучения с учителем». Есть пара случайных величин

(X, Y)

X

принимает значения в

X

(чаще всего

X = R^{d}

, где

d

— число признаков),

Y

принимает значения в

Y

, где

Y

чаще всего либо

R

(и тогда говорят о задаче регрессии), либо конечное множество (и тогда говорят о задаче классификации). Мы сегодня будем говорить о задаче регрессии. Наша цель — установить связь между

X

Y

, то есть научиться предсказывать значение

Y

по значению

X

. Пусть также задана функция потерь

L (y,^y) : Y \times Y \to R

, которая показывает цену ошибки, если при правильном ответе

y

был предсказан

^y

. Мы сейчас будем рассматривать квадратичную функцию потерь

L (y,^y) = (y -^y)^{2}

4.1.2Метод $k$ ближайших соседей (k-NN)

На прошлых лекциях (см. раздел 2.2) мы выяснили, что наилучшим предсказанием в случае квадратичной функции потерь является матожидание условного распределения:

f_{b e s t} (x) = E [Y | X = x]

Поскольку на практие совместное распределение случайных величин

X

Y

неизвестно, мы оцениваем

f_{b e s t}

с помощью данных

D = {(x_{1}, y_{1}), \dots, (x_{n}, y_{n})}

, являющихся выборкой из

(X, Y)

. Пусть мы хотим предсказать значение

y

для данного значения

x

. Если бы у нас было много объектов с одним и тем же

x

, в качестве предсказания

^y = f (x)

логично было бы выбрать выборочное среднее для всех значений

y

этих объектов:

f (x) = \frac{1}{# {i ∣ x_{i} = x}} \sum i ∣ x_{i} = x y_{i} .

Если случайная величина

X

является непрерывной (или по крайней мере содержит непрерывные компоненты), наличие нескольких объектов с одинаковыми значениями

x

, в точности равными данному, имеет нулевую вероятность. Поэтому вместо множества

{i ∣ x_{i} = x}

используется множество

k

ближайших соседей к

x

. Обозначим множество индексов

{i_{m}}_{m = 1}^{k}

ближайших соседей

x_{i_{1}}, \dots, x_{i_{k}}

к точке

x

через

N_{k} (x)

и положим:

\begin{matrix} f (x) = \frac{1}{k} \sum i \in N_{k} (x) y_{i} \\ (4.1) \end{matrix}

Так мы получаем оценку метода $k$ ближайших соседей.

Эта оценка имеет смысл, если предположить, что функция $f_{b e s t}$ является непрерывной. При большом количестве данных $n$ и большом $k$ , при этом малым по сравнению с $n$ , ближайшие соседи к точке $x$ будут достаточно близки к ней и, в силу непрерывности, значения функции $f_{b e s t}$ в точках $x_{i_{m}} \in S_{k} (x)$ будет достаточно близко к $f_{b e s t} (x)$ . Если $k$ велико, выборочное среднее будет достаточно близко к истинному матожиданию, а следовательно функция $f$ , заданная (4.1), будет близка к $f_{b e s t}$ .

4.1.3Зачем нужно что-то ещё?

Казалось бы, что тут может пойти не так? Метод

k

ближайших соседей выглядит универсальным и в высшей степени теоретически обоснованным — зачем нужны какие-то ещё методы?

Проблема в том, что для получения хорошей оценки в методе $k$ ближайших соседей нужно иметь много данных — мы хотим, чтобы $k$ было большим (чтобы взятие выборочного среднего уничтожило шум и позволило получить хорошую оценку для истинного матождиания), но при этом маленьким по сравнению с $n$ (чтобы $x$ -координаты ближайших соседей были близки к точке $x$ , для которой мы делаем предсказание — иначе от непрерывности мало толку). Эта проблема усугубляется, если $d$ оказывается большим.

Действительно, рассмотрим такой пример. Пусть $X$ распределено равномерно на множестве $[0, 1]^{d}$ . Допустим для простоты, что мы используем метод одного ближайшего соседа, и предполагаем, что $X$ и $Y$ связаны детерминистически, то есть $Y ∣ X = x$ — это какое-то число (не случайное для заданного $x$ ). Для получения предсказания в точке $x$ с точности $ε$ потребуется, чтобы ближайший сосед находился на расстоянии порядка $O (ε)$ от $x$ . Чтобы для каждой точки $x \in [0, 1]^{d}$ нашёлся такой ближайший сосед, требуется, чтобы всего точек было порядка $O (1 / ε^{d})$ . (Разрежем каждую сторону $d$ -мерного единичного куба на $O (1 / ε)$ кусочков, всего получим $O (1 / ε^{d})$ маленьких кубиков, в каждом нужно иметь по точке.) Эта штука экспоненциально растёт по $d$ и уже при $d = 10$ может стать фантастически большой даже для не слишком маленьких $ε$ . Этот эффект называется проклятием размерности (одним из его проявлений).

4.1.4Предположения о характере истинной зависимости

Что же делать? Если не требовать от

f_{b e s t}

ничего сверх непрерывности, у нас мало шансов сделать что-то лучше. К счастью, часто мы можем предположить, что

f_{b e s t}

обладает какими-то дополнительными хорошими свойствами, и в этом предположении справиться с проклятием размерности.

Непрерывность выглядит самым слабым из разумных предположений о виде истинной зависимости между $X$ и $Y$ . Самым сильным предположением является утверждение о независимости $X$ и $Y$ — в этом случае, в частности, $f_{b e s t}$ является константой и наш алгоритм должен выдавать предсказание, вообще не глядя на $x$ . Это предположение кажется черезчур сильным, оно делает задачу бессмысленной. Чуть менее сильным и при этом достаточно разумным предположением является линейность фукции $f_{b e s t}$ . Накладывая это ограничение на $f_{b e s t}$ мы попадаем в мир линейных моделей, которому будут посвящены эта и следующие несколько лекций.

4.2Задача линейной регрессии

4.2.1Общая постановка задачи

Пусть теперь

x_{1}, \dots, x_{n} \in R^{d}

зафиксированы, а

y_{1}, \dots, y_{n}

являются случайными величинами. Мы предполагаем, что истинная связь между

y_{i}

x_{i}

является линейной, плюс некоторая случайная ошибка. А именно, существует такой вектор

w \in R^{d}

(вектор весов), что

\begin{matrix} y_{i} = ⟨ x_{i}, w ⟩ + ε_{i}, \\ (4.2) \end{matrix}

где

⟨ x_{i}, w ⟩

— стандартное скалярное произведение (

x_{i 1} w_{1} + \dots + x_{i d} w_{d}

), а все

ε_{i}

независимы в совокупности, имеют нулевое матожидание

E [ε_{i}] = 0

для всех

i = 1, \dots, n

и одинаковую конечную дисперсию

D [ε_{i}] = σ^{2} < \infty

В этом случае процесс обучения линейной модели состоит в нахождении вектора $^w$ по имеющимся данным. Как это сделать?

Если бы модель была на 100% верна и ошибки отсутствовали ( $ε_{i} = 0$ для всех $i = 1, \dots, d$ ), то уравнение (4.2) было бы линейным уравнением на $w$ , из которого можно было бы найти последний. В реальности же приходится использовать другие методы — в частности, метод максимального правдоподобия.

4.2.2Оценка параметров распределения с помощью максимизации правдоподобия

Сделаем небольшое отступление и рассмотрим более простую задачу. Пусть у нас есть

z_{1}, \dots, z_{n}

— выборка из нормального распредления

N (μ, σ^{2})

с неизвестными параметрами

μ

σ^{2}

. Рассмотрим функцию правдоподобия (likelihood):

\begin{matrix} p (z_{1}, \dots, z_{n} ∣ μ, σ) = n \prod i = 1 p (z_{i} ∣ μ, σ) = = n \prod i = 1 \frac{1}{\sqrt{2 π σ^{2}}} exp [- \frac{(z_{i} - μ)^{2}}{2 σ^{2}}] . \\ (4.3) (4.4) \end{matrix}

Она показывает, какова плотность вероятности получить тот набор данных, который мы получили, то есть насколько правдоподобно было получить эти данные из распределения с указанными параметрами. Переход к произведению в первой строчке связан с тем, что мы предполагаем

y_{i}

независимыми. Для фиксированных данных

z_{1}, \dots, z_{n}

, правдоподобие — это функция от

μ

σ

import matplotlib.pyplot as plt
import numpy as np
import qqmbr.odebook as ob
# see https://github.com/ischurov/qqmbr/blob/master/qqmbr/odebook.py

from scipy.stats import norm
np.random.seed(42)
x = np.random.normal(1, 5, 20)
plt.plot(x, np.zeros_like(x), 'o')
X = np.linspace(-10, 10, 200)
plt.plot(X, norm(loc=-5, scale=5).pdf(X))
plt.plot(X, norm(loc=1, scale=2).pdf(X))
plt.plot(X, norm(1, 5).pdf(X))

Рис. 4.1: Выборка, отмеченная синими точками, получена из одного из нормальных распределений, чьи плотности нарисованы. Из какого?

Оценка наибольшего правдоподоия (maximum likelihood estimate, MLE) — это такое значение параметров распределения, при которых правдоподобие максимально.

Найдём MLE-оценку для нашего примера. Обычно вместо того, чтобы максимизировать само правдоподобие, максимизируют его логарифм (log-likelihood).

ln p (z_{1}, \dots, z_{n} ∣ μ, σ) = - n ln \sqrt{2 π σ^{2}} - \frac{1}{2 σ^{2}} n \sum i = 1 (z_{i} - μ)^{2} \to max μ, σ

В данном случае оптимизационная задача особенно проста: MLE-оценка для

μ

не зависит от выбора

σ

. Найдём её. Достаточно минимизировать выражение

n \sum i = 1 (z_{i} - μ)^{2} .

Это функция одной переменной (

μ

). Находя производную и приравнивая её к нулю, мгновенно получаем:

μ_{M L E} = \frac{1}{n} n \sum i = 1 z_{i} = A v e (z_{1}, \dots, z_{n}) .

Таким образом, MLE-оценка для матожидания нормального распределения является выборочным средним.

Вопрос 1. Найдите теперь MLE-оценку для дисперсии

σ^{2}

4.2.3Линейная регрессия с гауссовыми ошибками

Чтобы воспользоваться методом максимизации правдоподобия для линейной регрессии необходимо уточнить постановку задачи (4.2). А именно, предположим, что все

ε_{i}

распределены в соответствии с нормальным законом (и как обычно независимы):

ε_{i} \sim N (0, σ^{2}) .

Найдём правдоподобие

y_{1}, \dots, y_{n}

. (Мы по-прежнему считаем набор

x_{1}, \dots, x_{n}

фиксированным.) Поскольку

ε_{i} = y_{i} - ⟨ x_{i}, w ⟩

, имеем:

\begin{matrix} p (y_{1}, \dots, y_{n} ∣ w, σ) & = n \prod i = 1 \frac{1}{\sqrt{2 π σ^{2}}} exp [- \frac{(y_{i} - ⟨ x_{i}, w ⟩)^{2}}{2 σ^{2}}]; ln p (y_{1}, \dots, y_{n} ∣ w, σ) & = - n ln \sqrt{2 π σ^{2}} - \frac{1}{2 σ^{2}} n \sum i = 1 (y_{i} - ⟨ x_{i}, w ⟩)^{2} . \\ (4.5) (4.6) \end{matrix}

Из последнего соотношения видно, что для максимизации логарифма правдоподобия необходимо минимизировать величину

R S S (w) = n \sum i = 1 (y_{i} - ⟨ x_{i}, w ⟩)^{2},

называемую суммой квадратов остатков (residual sum of squares). Данный метод называется методом наименьших квадратов, а оптимальное значение

^w

называют МНК-оценкой для истинных весов

w

Заметим, что задачу минимизации $R S S$ , которую мы получили методом наибольшего правдоподобия, предположив нормальность остатков, можно интерпретировать иначе. В самом начале лекции мы говорили о том, что в задаче машинного обучения обычно задана некоторая функция потерь $L (y,^y)$ .

Определение 1. Сумма значений

L (y_{i}, {^y}_{i})

функции потерь на всех объектах обучающей выборки называется эмпирическим риском.

Если функция потерь является квадратичной, то эмпирическим риском и оказывается $R S S$ . Таким образом, метод наименьших квадратов оказывается частным случаем метода минимизации эмпирического риска, выходящего далеко за рамки линейных моделей.

Такая интерпретация, лишенная связи с теории вероятностей, даёт большую свободу. Теперь мы можем выбирать любую функцию потерь и находить оценку для $w$ , полученную минимизацией эмпирического риска, создавая таким образом разнообразные алгоритмы машинного обучения, обладающие разными свойствами (связанными со свойствами функции потерь). Об этом мы поговорим позже.

4.3Явный вид МНК-оценки

4.3.1МНК в матричной форме

Запишем обучающую выборку в матричном виде. Пусть

X

— матрица объект-признак, по строкам которой записаны векторы

x_{i}

Вопрос 2. Сколько строк и столбцов в матрице

X

n

строк и

d

столбцов, конечно!

Верный ответ. Верно, строк столько, сколько объектов

d

строк и

n

столбцов, разумеется!

Неверный ответ. А вот и нет!

Нам приходится внести небольшую путаницу — раньше буквой $X$ обозначалась случайная величина, а теперь (и до конца этой лекции) — фиксированная матрица.

Вектор $y = (y_{1}, \dots, y_{n}) \in R^{n}$ — вектор правильных ответов. Теперь $R S S (w)$ можно представить в виде:

\begin{matrix} R S S (w) = ∥ X w - y ∥^{2}, \\ (4.7) \end{matrix}

где

∥ \cdot ∥

— стандартная евклидова норма в пространстве

R^{n}

, векторы

y

w

являются вектор-столбцами. Действительно, каждая компонента вектора

X w

— это скалярное произведение

⟨ x_{i}, w ⟩

, вектор

X w - y

состоит из остатков, квадрат его нормы — сумма квадратов остатков.

Для фиксированных $X$ и $y$ , функция $R S S$ является отображением из $R^{d}$ в $R$ . У него есть градиент и необходимым условием экстремума является равенство этого градиента нулю.

4.3.2Немного о градиентах

Чтобы найти градиент нам необходимо напомнить определения и доказать несколько вспомогательных утверждений.

Определение 2. Часто градиент определяется как вектор, состоящий из частных производных. Однако, он допускает и бескоординатное представление, требующее лишь евклидовой структуры. А именно, пусть отображение

φ : R^{d} \to R

дифференцируемо в точке

x \in R^{d}

. Тогда у него есть дифференциал

d φ_{x}

, то есть такое линейное отображение

d φ_{x} : R^{d} \to R

, что

φ (x + h) = φ (x) + d φ_{x} (h) + o (∥ h ∥)

. Градиентом функции

φ

в точке

x

называется такой вектор

\nabla_{x} φ \in R^{d}

, что

d φ_{x} (h) = ⟨ \nabla_{x} φ, h ⟩ .

Нетрудно показать, что градиент таким образом определён однозначно, а если евклидова структура является стандартной (то есть скалярное произведение записывается как сумма произведений компонент векторов), то градиент действительно является вектором, составленным из частных производных.

Градиент также часто обозначается $\frac{\partial φ}{\partial x}$ для векторного аргумента $x$ .

Утверждение 1. Пусть

A

— матрица с

n

строками и

d

столбцами,

u \in R^{n}

v \in R^{d}

. Тогда

⟨ A v, u ⟩ = ⟨ v, A^{T} u ⟩,

где

A^{T}

— транспонированная матрица

A

Доказательство. Будем использовать матричную форму записи стандартного скалярного произведения:

⟨ w, z ⟩ = w^{T} z = z^{T} w,

где

w

z

— некоторые векторы одинаковой размерности, записанные как вектор-столбцы. Имеем:

⟨ A v, u ⟩ = u^{T} A v = \dots

скалярное произведение является числом, поэтому оно не изменится в результате транспонирования:

\dots = (u^{T} A v)^{T} = v^{T} A^{T} u = ⟨ v, A^{T} u ⟩ .

∎

Утверждение 2. Для фиксирвоанного вектора

a

\frac{\partial ⟨ a, w ⟩}{\partial w} = a

Доказательство. Это утверждение, как и следующее, можно мгновенно доказать в координатах, но можно действовать по-высоконаучному:

⟨ a, w + h ⟩ = ⟨ a, w ⟩ + ⟨ a, h ⟩ .

Очевидно, производная — это

⟨ a, h ⟩

, а градиент (в соответствии с определением) — вектор

a

.∎

Утверждение 3. Для фиксированной матрицы

A

\frac{\partial ⟨ A w, w ⟩}{\partial w} = (A + A^{T}) w

Доказательство. Будем действовать по-высоконаучному:

⟨ A (w + h), (w + h) ⟩ = ⟨ A w, w ⟩ + ⟨ A w, h ⟩ + ⟨ A h, w ⟩ + ⟨ A h, h ⟩ .

Последнее слагаемое есть

o (∥ h ∥)

, а производная — это функция

⟨ A w, h ⟩ + ⟨ A h, w ⟩

. Остаётся записать производную в виде скалярного произведения

h

на фиксированный вектор — он и будет вектором градиента. Первое слагаемое уже записано в этом виде. Разберёмся со вторым слагаемым:

⟨ A h, w ⟩ = ⟨ A^{T} w, h ⟩

по предложению 1. Таким образом, производная принимает вид:

⟨ A w + A^{T} w, h ⟩,

откуда и следует, что градиент равен

A w + A^{T} w = (A + A^{T}) w

.∎

4.3.3Вывод МНК-оценки

Теперь всё готово к тому, чтобы найти градиент

R S S

. Запишем (4.7) в следующем виде:

R S S (w) = ⟨ X w - y, X w - y ⟩ = ⟨ X w, X w ⟩ - 2 ⟨ X w, y ⟩ + ⟨ y, y ⟩ .

Последнее слагаемое не зависит от

w

, его градиент равен нулю. Разберёмся с двумя другими:

\frac{\partial ⟨ X w, X w ⟩}{\partial w} = \frac{\partial ⟨ X^{T} X w, w ⟩}{\partial w} = 2 X^{T} X w .

Здесь мы воспользовались предложением 1, предложением 3 и тем фактом, что

X^{T} X

— симметричная матрица и при транспонировании не меняется.

\frac{\partial ⟨ X w, y ⟩}{\partial w} = X^{T} y .

Здесь мы воспользовались предложением 1 и предложением 2.

Таким образом:

\frac{\partial R S S (w)}{\partial w} = 2 X^{T} X w - 2 X^{T} y .

Предположим, что

X^{T} X

является невырожденной матрицей. (Она состоит из скалярных произведений столбцов матрицы

X

, её невыожденность эквивалентна тому, что все столбцы

X

линейно независимы.) Тогда оптимальное значение

^w

находится из условия равенства градиента нулю по формуле:

^w = (X^{T} X)^{- 1} X^{T} y .

Её можно обвести в рамочку — она того стоит.

Вопрос 3. Почему нельзя написать так:

^w = (X^{T} X)^{- 1} X^{T} y = X^{- 1} (X^{T})^{- 1} X^{T} y = X^{- 1} y ?

Узнать ответ

Верный ответ. Потому что $X$ , вообще говоря, не квадратная матрица, и обратная у неё не определена. Если же $X$ вдруг оказалась квадратной и обратимой, записать так можно — это будет означать, что у нас число наблюдений равно числу переменных и мы можем найти идеальное решение, дающее нулевые остатки, которое будет задаваться указанной формулой.

Вопрос 4. Мы нашли ноль градиента. Почему это действительно минимум?

← Предыдущая глава Следующая глава →

Машинное обучение для факультета математики Записки лекций