2Статистическая теория принятия решений

2.1Постановка задачи

Пусть у нас есть данные (обучающая выборка) , где и . Каждая пара соответствует одному объекту в обучающей выборке, , — количество объектов, — количество известных признаков. Наша задача: глядя на данные, в которых приведены и , и , научиться предсказывать по . В дальнейшем нам будут давать новые (значения признаков для новых объектов) и нам нужно будет для них предсказать .

Как отличить хороший предсказательный алгоритм от плохого? Чтобы ответить на этот вопрос и уточнить постановку задачи, необходимо уточнить наши представления о том, откуда взялись наши данные.

Будем обозначать , .

Мы верим в то, что существует некоторая пара случайных величин , и что наши данные являются выборкой из этой пары. На менее формальном уровне это означает следующее. Пару случайных величин можно представлять себе как программу, которая по нашей команде генерирует нам случайную пару , где , . Мы верим в то, что наши данные были сгенерированы путём независимых запусков такой программы. (Каждый запуск ничего не знает обо всех остальных.)

Пусть теперь есть некоторая функция потерь , которая показывает, насколько нам стало плохо от того, что при правильном ответе мы дали предсказание .

Например, популярна квадратичная функция потерь.

Именно её мы будем в основном рассматривать сегодня.

Вопрос 1. Предложите какую-нибудь функцию потерь, подходящую для случая, когда ошибка в большую сторону приводит к гораздо более плачевным последствиям, чем ошибка в меньшую сторону.

Теперь пусть у нас есть алгоритм, предсказывающий по данному , то есть задана некоторая (обычная, детерминированная) функция . Ожидаемая ошибка предсказания (expected prediction error) — это матожидание

где распределены в соответствии с распределением . Для фиксированного и это просто число. Наша задача — выбрать такую функцию , которая бы минимизировала это число.

2.2Регрессионная функция

Предположим, что мы знаем истинное распределение . На самом деле, в реальной жизни мы его никогда не знаем, и пытаемся оценить, глядя на данные. Но сейчас забудем про данные и будем считать, что знаем. Как тогда должно быть устроено оптимальное предсказание?

Нам понадобится вспомогательная лемма.

Лемма 1. Рассмотрим случайную величину . Пусть — некоторая функция. Тогда
Эту формулу следует понимать так. В левой части мы выбираем случайные величины из совместного распределения , для каждой вычисляем , делаем это много-много раз, затем усредняем то, что получилось. В правой части мы выбираем из распределения , затем генерируем много из условного распределения , вычислием , усредняем, записываем среднее. Потом повторяем эту операцию для другого случайного , снова записать среднее и так много раз. Затем усреднить получившиеся средние. В обоих случаях получится одно и то же.

Доказательство. Предположим для простоты, что существует совместная плотность . Тогда

С помощью леммы 1, запишем (2.1) в следующем виде:

Чтобы минимизировать эту штуку, нам нужно для каждого фиксированного минимизировать величину . Для фиксированного значение — это просто число (обозначим его через ), то есть мы свели задачу к оптимизации функции одной переменной :
Для квадратичной функции потерь имеем:
Для краткости в дальнейшем будем опускать индекс у условной плотности и писать просто .

Найдём производную по : Приравнивая к нулю, получаем, что необходимое условие экстремума выполняется в точке

Легко показать (покажите!), что это действительно искомая точка минимума. Таким образом с точки зрения квадратичной функции потерь оптимальным предсказанием для данного является условное матожидание при условии . Функция , заданная уравнением (2.2), часто называется регрессионной функцией.

В следующий раз мы обсудим, как можно оценивать , не зная распределения , но имея данные, которые являются выборкой из этого распределения, и какие опасности нас поджидают на этом пути.