2Статистическая теория принятия решений

2.1Постановка задачи

Пусть у нас есть данные (обучающая выборка)

(x_{1}, y_{1}), \dots, (x_{n}, y_{n})

, где

x_{1}, \dots, x_{n} \in R^{d}

y_{1}, \dots, y_{n} \in R

. Каждая пара

(x_{i}, y_{i})

соответствует одному объекту в обучающей выборке,

i = 1, \dots, n

n

— количество объектов,

d

— количество известных признаков. Наша задача: глядя на данные, в которых приведены и

x

, и

y

, научиться предсказывать

y

по

x

. В дальнейшем нам будут давать новые

x

(значения признаков для новых объектов) и нам нужно будет для них предсказать

y

Как отличить хороший предсказательный алгоритм от плохого? Чтобы ответить на этот вопрос и уточнить постановку задачи, необходимо уточнить наши представления о том, откуда взялись наши данные.

Будем обозначать $x_{d a t a} = (x_{1}, \dots, x_{n})$ , $y_{d a t a} = (y_{1}, \dots, y_{n})$ .

Мы верим в то, что существует некоторая пара случайных величин $(X, Y)$ , и что наши данные являются выборкой из этой пары. На менее формальном уровне это означает следующее. Пару случайных величин $(X, Y)$ можно представлять себе как программу, которая по нашей команде генерирует нам случайную пару $(x, y)$ , где $x \in R^{d}$ , $y \in R$ . Мы верим в то, что наши данные были сгенерированы путём независимых запусков такой программы. (Каждый запуск ничего не знает обо всех остальных.)

Пусть теперь есть некоторая функция потерь $L (y,^y)$ , которая показывает, насколько нам стало плохо от того, что при правильном ответе $y$ мы дали предсказание $^y$ .

Например, популярна квадратичная функция потерь.

L (y,^y) = (y -^y)^{2}

Именно её мы будем в основном рассматривать сегодня.

Вопрос 1. Предложите какую-нибудь функцию потерь, подходящую для случая, когда ошибка в большую сторону

(^y > y)

приводит к гораздо более плачевным последствиям, чем ошибка в меньшую сторону.

Теперь пусть у нас есть алгоритм, предсказывающий $y$ по данному $x$ , то есть задана некоторая (обычная, детерминированная) функция $^y = f (x)$ . Ожидаемая ошибка предсказания (expected prediction error) — это матожидание

\begin{matrix} E P E (f) = E [L (y, f (x)], \\ (2.1) \end{matrix}

где

(x, y)

распределены в соответствии с распределением

(X, Y)

. Для фиксированного

f

L

это просто число. Наша задача — выбрать такую функцию

f

, которая бы минимизировала это число.

2.2Регрессионная функция

Предположим, что мы знаем истинное распределение

(X, Y)

. На самом деле, в реальной жизни мы его никогда не знаем, и пытаемся оценить, глядя на данные. Но сейчас забудем про данные и будем считать, что знаем. Как тогда должно быть устроено оптимальное предсказание?

Нам понадобится вспомогательная лемма.

Лемма 1. Рассмотрим случайную величину

(X, Y)

. Пусть

ϕ (x, y)

— некоторая функция. Тогда

E_{(x, y) \sim (X, Y)} [ϕ (X, Y)] = E_{x \sim X} E_{y \sim Y ∣ X = x} [ϕ (x, y) ∣ X = x] .

Эту формулу следует понимать так. В левой части мы выбираем случайные величины из совместного распределения

(X, Y)

, для каждой вычисляем

ϕ (x, y)

, делаем это много-много раз, затем усредняем то, что получилось. В правой части мы выбираем

x

из распределения

X

, затем генерируем много

y

из условного распределения

Y ∣ X = x

, вычислием

ϕ (x, y)

, усредняем, записываем среднее. Потом повторяем эту операцию для другого случайного

x

, снова записать среднее и так много раз. Затем усреднить получившиеся средние. В обоих случаях получится одно и то же.

Доказательство. Предположим для простоты, что существует совместная плотность

p_{X, Y} (x, y)

. Тогда

\begin{matrix} E_{(x, y) \sim (X, Y)} [ϕ (X, Y)] & = \int_{R} \int_{R} ϕ (x, y) p_{X, Y} (x, y) d x d y = = \int_{R} p_{X} (x) \int_{R} ϕ (x, y) \frac{p_{X, Y} (x, y)}{p_{X} (x)} d y & = \int_{R} p_{X} (x) \int_{R} ϕ (x, y) p_{Y | X} (y | x) d y . \end{matrix}

∎

С помощью леммы 1, запишем (2.1) в следующем виде:

E P E (f) = E_{x \sim X} E_{y \sim Y ∣ X = x} [L (y, f (x)) ∣ X = x] .

Чтобы минимизировать эту штуку, нам нужно для каждого фиксированного

x

минимизировать величину

E_{y \sim Y ∣ X = x} [L (y, f (x)) ∣ X = x]

. Для фиксированного

x

значение

f (x)

— это просто число (обозначим его через

^y

), то есть мы свели задачу к оптимизации функции одной переменной

^y

E_{y \sim Y ∣ X = x} [L (y,^y) ∣ X = x] \to min^y .

Для квадратичной функции потерь

L (y,^y) = (y -^y)^{2}

имеем:

\int_{R} (y -^y)^{2} p_{Y | X} (y | x) d y \to min^y

Для краткости в дальнейшем будем опускать индекс у условной плотности и писать просто

p (y | x)

Найдём производную по $^y$ : $\begin{matrix} \frac{d}{d^y} \int_{R} (y -^y)^{2} p (y | x) d y = \int_{R} p (y | x) \frac{d}{d^y} (y -^y)^{2} d y = = \int_{R} 2 (^y - y) p (y | x) d y = 2 \int_{R}^y p (y | x) d y - 2 \int_{R} y p (y | x) d y = = 2^y \int_{R} p (y | x) d y - 2 E [Y ∣ X = x] = 2 (^y - E [Y ∣ X = x]) . \end{matrix}$ Приравнивая к нулю, получаем, что необходимое условие экстремума выполняется в точке

\begin{matrix} ^y = f (x) = E [Y ∣ X = x] . \\ (2.2) \end{matrix}

Легко показать (покажите!), что это действительно искомая точка минимума. Таким образом с точки зрения квадратичной функции потерь оптимальным предсказанием для данного

x

является условное матожидание

Y

при условии

X = x

. Функция

f (x)

, заданная уравнением (2.2), часто называется регрессионной функцией.

В следующий раз мы обсудим, как можно оценивать $E [Y ∣ X = x]$ , не зная распределения $(X, Y)$ , но имея данные, которые являются выборкой из этого распределения, и какие опасности нас поджидают на этом пути.

← Предыдущая глава Следующая глава →

Машинное обучение для факультета математики Записки лекций

2Статистическая теория принятия решений

2.1Постановка задачи

2.2Регрессионная функция

Машинное обучение для факультета математики
Записки лекций