3Шум, смещение и разброс

3.1Напоминание: постановка задачи

Пусть есть пара случайных величин

(X, Y)

и данные

D = {(x_{1}, y_{1}), \dots, (x_{n}, y_{n})}

, являющиеся выборкой из

(X, Y)

. Иными словами, мы считаем, что каждая из пар

(x_{1}, y_{1}), \dots, (x_{n}, y_{n})

распределена в соответствии с распределением

(X, Y)

и все пары независимы в совокупности. (При этом

x_{j}

конечно не является независимым с

y_{j}

.) Будем обозначать распределение

D

через

(X, Y)^{n}

(распределение

D

действительно является декартовой степенью распределения

(X, Y)

в силу независимости).

Пусть $x_{j} \in X$ , $y_{j} \in Y$ . Чаще всего $X = R^{d}$ , где $d$ — количество признаков. Мы также сейчас будем считать, что $Y = R$ , то есть мы рассматриваем задачу регрессии (предсказания числовой переменной).

Алгоритм $a$ машинного обучения принимает на вход данные $D$ и возвращает функцию $f : X \to Y$ , которая предсказывает значение $y$ по данному набору признаков $x$ . Функция $f$ называется обученным алгоритмом. Формально:

a : (X, Y)^{n} \to (X \to Y) .

Для оценки качества предсказаний задана некоторая функция потерь

L : Y \times Y \to R .

Величина

L (y,^y)

измеряет, насколько нам плохо от того, что при правильном ответе

y

мы предсказали

^y

. Сегодня на протяжении всей лекции мы будем рассматривать квадратичную функцию потерь:

L (y,^y) = (y -^y)^{2} .

На прошлой лекции мы показали, что для квадратичной функции потерь самое лучшее предсказание — это матожидание условного распределения:

\begin{matrix} f_{b e s t} (x) = E [Y ∣ X = x] . \\ (3.1) \end{matrix}

Проблема состоит в том, что на практике мы никогда не знаем истинное распределение

(X, Y)

и таким образом не можем найти матожидание (3.1). Вместо этого мы используем данные

D

для нахождения некоторого приближения

f_{b e s t}

3.2Ожидаемая ошибка

Пусть мы получили некоторые данные

D

, обучили на них алгоритм

a

и получили предсказывающую функцию

f = a (D)

. Мы хотим минимизировать ожидаемую ошибку предсказания на новом объекте

(x_{n e w}, y_{n e w})

, полученном из того же распределения

(X, Y)

. Однако, теперь нам необходимо учесть, что не только новый объект является случайной величиной, но и данные

D

мы рассматриваем как случайную величину — разные обучающие выборки будут приводить к разным функциям

f

, которые будут давать разные предсказания. Таким образом, нас интересует следующая ожидаемая ошибка:

\begin{matrix} E [L (y_{n e w}, a (D) (x_{n e w}))], \\ (3.2) \end{matrix}

где

D

распределено как

(X, Y)^{n}

(x_{n e w}, y_{n e w})

распределено как

(X, Y)

и независимо от

D

. Введём обозначения:

\begin{matrix} f (x) & = a (D),^y & = f (x_{n e w}) . \\ (3.3) (3.4) \end{matrix}

Для фиксированного

x_{n e w}

^y

— это некоторая случайная величина (т.к. она зависит от

D

, которая также случайная величина). Обозначим распределение

^y

для фиксированного

x_{n e w}

через

^Y (x_{n e w})

С помощью леммы 1 из предыдущей лекции можно переписать (3.2) следующим образом:

\begin{matrix} E_{x_{n e w} \sim X} [E_{y_{n e w} \sim Y ∣ X = x_{n e w},^y \sim^Y (x_{n e w})} [L (y,^y)]], \\ (3.5) \end{matrix}

где

y_{n e w}

^y

независимы. Последнее следует из того факта, что мы считаем

(x_{n e w}, y_{n e w})

независимым от

D

. Иными словами, то, какие данные мы имеем, само по себе никак не влияет на процесс генерирования нового объекта

(x_{n e w}, y_{n e w})

— это выглядит вполне реалистичным предположением.

Теперь мы будем оценивать внутреннее матожидание в (3.5) для фиксированного $x_{n e w}$ .

3.3Разложение ожидаемой ошибки

Теорема 1. Ожидаемая квадратичная ошибка представляется следующим образом:

\begin{matrix} E [(y -^y)^{2}] = (E [y] - E [^y])^{2} + D y + D^y, \\ (3.6) \end{matrix}

где

y_{n e w} \sim Y ∣ X = x_{n e w}

^y \sim^Y (x_{n e w})

y_{n e w}

^y

независимы. Первое слагаемое в сумме называется смещением (bias), оно показывает систематическую ошибку алгоритма — отклонение усредненного предсказания от идеального предсказания

E [y]

. Второе слагаемое называется шумом (noise), оно не зависит от алгоритма, а зависит только от истинного распределения

(X, Y)

. Шум равен ожидаемой ошибке идеального предсказывающего алгоритма. Наконец, третье слагаемое назыается разбросом (variance), оно показывает, насколько разными могут получаться предсказания если обучать алгоритм на разных обучающих выборках. Иными словами, оно показывает чувствительность алгоритма по отношению к данным.

Доказательство. Начнём с алгебраических преобразований:

\begin{matrix} E [(y -^y)^{2}] & = E [((y - E [y]) + (E [y] - E [^y]) + (E [^y] -^y))^{2}] = = E [(y - E [y])^{2}] + E [(E [y] - E [^y])^{2}] + E [(E [^y] -^y)^{2}] + + 2 E [(y - E [y]) (E [y] - E [^y])] + + 2 E [(y - E [y]) (E [^y] -^y)] + + 2 E [(E [y] - E [^y]) (E [^y] -^y)] . \\ (3.7) (3.8) (3.9) (3.10) \end{matrix}

Выражение

E [y] - E [^y]

является просто числом, не случайной величиной, поэтому его матожидание равно ему самому и его можно выносить за знак матожидания. Поэтому (3.7) совпадает с искомым разложением. (Напомним, что по определению дисперсия

D [x] = E [(x - E [x])^{2}]

.) Остаётся доказать, что оставшиеся слагаемые нулевые.

В (3.8) вынесем $(E [y] - E [^y])$ за матожидание и заметим, что $E [y - E [y]] = E [y] - E E [y] = 0$ , т.к. матожидание матожидания равно матожиданию. Таким образом, слагаемое (3.8) равно нулю. Аналогично доказывается, что слагаемое (3.10) равно нулю. В слагаемом (3.9) записана (с точностью до знака) ковариация случайных величин $y$ и $^y$ . Она равна нулю при условии, что случайные велиины независимы.∎

3.4Пример: метод k ближайших соседей (k-NN)

Метод k ближайших соседей (k nearest neighbors, k-NN) — простейший метод машинного обучения. Для задачи регрессии он основан на непосредственной оценке идеального предсказания

E [Y ∣ X = x]

по выборке:

\begin{matrix} f (x) = \frac{1}{k} \sum j \in N_{k} (x) y_{j}, \\ (3.11) \end{matrix}

где

N_{k} (x)

— множество индексов элементов

x_{i}

, являющихся

k

ближайшими соседями к

x

Для примера, рассмотрим распределение $(X, Y)$ , заданное следующим образом: $\begin{matrix} X \sim & U n i f o r m (- 1, 1); ε \sim & N (0, ε_{0}); Y = & X^{2} + ε . \end{matrix}$ Что можно сказать о смещении и разбросе для kNN при различных $k$ ? Рассмотрим экстремальные случаи — $k = 1$ и $k = n$ . При $k = 1$ предсказание равно одному из значений $y_{j}$ и разброс предсказания примерно равен разбросу условного распределения $Y ∣ X = x$ , то есть $ε_{0}^{2}$ . При $k = n$ , предсказание в любой точке есть среднее от всех $y_{j}$ , $j = 1, \dots, n$ ( $n$ — общий размер выборки). Разброс предсказаний теперь равен $ε_{0}^{2} / n$ (см. параграф 1.4.3).

Что происходит со смещением? При $n = k$ предсказание $f (x)$ не зависит от $x$ и его матожидание равно $\begin{matrix} E [f (x)] = & E \frac{y_{1} + \dots + y_{n}}{n} = E [Y] = E_{X} E [Y ∣ X] = = & E_{X} X^{2} = \frac{1}{2} \int_{- 1}^{1} x^{2} d x = \frac{1}{3} . \end{matrix}$ Таким образом, смещене в точках, далёких от $\sqrt{1 / 3}$ , будет большим.

Наоборот, при $k = 1$ , $f (x) = y_{j}$ , где $j$ таково, что $x_{j}$ является ближайшим соседом $x$ . Матожидание предсказания в этом случае равно $x_{j}^{2}$ , а расстояние от $x$ до $x_{j}$ составляет примерно $2 / n$ (т.к. точки ${x_{k}}$ распределены равномерно). Таким образом, смещение примерно равно $x_{j}^{2} - x^{2} = O (1 / n)$ и становится сколь угодно маленьким при больших $n$ .

В целом, увеличение $k$ приводит к тому, что при вычислении $f (x)$ в оценку для среднего попадает больше более далёких точек. Это приводит к уменьшению разброса (потому что точек больше), но увеличению смещения (потому что участвуют более далёкие точки). Это означает, что ни слишком маленькие, ни слишком большие значения $k$ скорее всего не будут оптимальными. На практике $k$ находится путём подбора с помощью кросс-валидации (об этом подробнее на семинаре).

Это пример так называемого bias—variance tradeoff: модель может быть либо очень гибкой, но при этом слишком чувствительной к данным (маленькое смещение, большой разброс), либо слишком грубой, но зато устойчивой (большое смещение, маленький разброс).

← Предыдущая глава Следующая глава →

Машинное обучение для факультета математики Записки лекций

3Шум, смещение и разброс

3.1Напоминание: постановка задачи

3.2Ожидаемая ошибка

3.3Разложение ожидаемой ошибки

3.4Пример: метод k ближайших соседей (k-NN)

Машинное обучение для факультета математики
Записки лекций