3Шум, смещение и разброс
3.1Напоминание: постановка задачи
Пусть есть пара случайных величин и данные , являющиеся выборкой из . Иными словами, мы считаем, что каждая из пар распределена в соответствии с распределением и все пары независимы в совокупности. (При этом конечно не является независимым с .) Будем обозначать распределение через (распределение действительно является декартовой степенью распределения в силу независимости).Пусть , . Чаще всего , где — количество признаков. Мы также сейчас будем считать, что , то есть мы рассматриваем задачу регрессии (предсказания числовой переменной).
Алгоритм машинного обучения принимает на вход данные и возвращает функцию , которая предсказывает значение по данному набору признаков . Функция называется обученным алгоритмом. Формально:
3.2Ожидаемая ошибка
Пусть мы получили некоторые данные , обучили на них алгоритм и получили предсказывающую функцию . Мы хотим минимизировать ожидаемую ошибку предсказания на новом объекте , полученном из того же распределения . Однако, теперь нам необходимо учесть, что не только новый объект является случайной величиной, но и данные мы рассматриваем как случайную величину — разные обучающие выборки будут приводить к разным функциям , которые будут давать разные предсказания. Таким образом, нас интересует следующая ожидаемая ошибка:С помощью леммы 1 из предыдущей лекции можно переписать (3.2) следующим образом:
Теперь мы будем оценивать внутреннее матожидание в (3.5) для фиксированного .
3.3Разложение ожидаемой ошибки
В (3.8) вынесем за матожидание и заметим, что , т.к. матожидание матожидания равно матожиданию. Таким образом, слагаемое (3.8) равно нулю. Аналогично доказывается, что слагаемое (3.10) равно нулю. В слагаемом (3.9) записана (с точностью до знака) ковариация случайных величин и . Она равна нулю при условии, что случайные велиины независимы.∎
3.4Пример: метод k ближайших соседей (k-NN)
Метод k ближайших соседей (k nearest neighbors, k-NN) — простейший метод машинного обучения. Для задачи регрессии он основан на непосредственной оценке идеального предсказания по выборке:Для примера, рассмотрим распределение , заданное следующим образом: Что можно сказать о смещении и разбросе для kNN при различных ? Рассмотрим экстремальные случаи — и . При предсказание равно одному из значений и разброс предсказания примерно равен разбросу условного распределения , то есть . При , предсказание в любой точке есть среднее от всех , ( — общий размер выборки). Разброс предсказаний теперь равен (см. параграф 1.4.3).
Что происходит со смещением? При предсказание не зависит от и его матожидание равно Таким образом, смещене в точках, далёких от , будет большим.
Наоборот, при , , где таково, что является ближайшим соседом . Матожидание предсказания в этом случае равно , а расстояние от до составляет примерно (т.к. точки распределены равномерно). Таким образом, смещение примерно равно и становится сколь угодно маленьким при больших .
В целом, увеличение приводит к тому, что при вычислении в оценку для среднего попадает больше более далёких точек. Это приводит к уменьшению разброса (потому что точек больше), но увеличению смещения (потому что участвуют более далёкие точки). Это означает, что ни слишком маленькие, ни слишком большие значения скорее всего не будут оптимальными. На практике находится путём подбора с помощью кросс-валидации (об этом подробнее на семинаре).
Это пример так называемого bias—variance tradeoff: модель может быть либо очень гибкой, но при этом слишком чувствительной к данным (маленькое смещение, большой разброс), либо слишком грубой, но зато устойчивой (большое смещение, маленький разброс).