4Линейная регрессия
4.1Проклятие размерности
4.1.1Напоминание: постановка задачи
Напомним базовую постановку задачи «обучения с учителем». Есть пара случайных величин , принимает значения в (чаще всего , где — число признаков), принимает значения в , где чаще всего либо (и тогда говорят о задаче регрессии), либо конечное множество (и тогда говорят о задаче классификации). Мы сегодня будем говорить о задаче регрессии. Наша цель — установить связь между и , то есть научиться предсказывать значение по значению . Пусть также задана функция потерь , которая показывает цену ошибки, если при правильном ответе был предсказан . Мы сейчас будем рассматривать квадратичную функцию потерь .4.1.2Метод ближайших соседей (k-NN)
На прошлых лекциях (см. раздел 2.2) мы выяснили, что наилучшим предсказанием в случае квадратичной функции потерь является матожидание условного распределения:Эта оценка имеет смысл, если предположить, что функция является непрерывной. При большом количестве данных и большом , при этом малым по сравнению с , ближайшие соседи к точке будут достаточно близки к ней и, в силу непрерывности, значения функции в точках будет достаточно близко к . Если велико, выборочное среднее будет достаточно близко к истинному матожиданию, а следовательно функция , заданная (4.1), будет близка к .
4.1.3Зачем нужно что-то ещё?
Казалось бы, что тут может пойти не так? Метод ближайших соседей выглядит универсальным и в высшей степени теоретически обоснованным — зачем нужны какие-то ещё методы?Проблема в том, что для получения хорошей оценки в методе ближайших соседей нужно иметь много данных — мы хотим, чтобы было большим (чтобы взятие выборочного среднего уничтожило шум и позволило получить хорошую оценку для истинного матождиания), но при этом маленьким по сравнению с (чтобы -координаты ближайших соседей были близки к точке , для которой мы делаем предсказание — иначе от непрерывности мало толку). Эта проблема усугубляется, если оказывается большим.
Действительно, рассмотрим такой пример. Пусть распределено равномерно на множестве . Допустим для простоты, что мы используем метод одного ближайшего соседа, и предполагаем, что и связаны детерминистически, то есть — это какое-то число (не случайное для заданного ). Для получения предсказания в точке с точности потребуется, чтобы ближайший сосед находился на расстоянии порядка от . Чтобы для каждой точки нашёлся такой ближайший сосед, требуется, чтобы всего точек было порядка . (Разрежем каждую сторону -мерного единичного куба на кусочков, всего получим маленьких кубиков, в каждом нужно иметь по точке.) Эта штука экспоненциально растёт по и уже при может стать фантастически большой даже для не слишком маленьких . Этот эффект называется проклятием размерности (одним из его проявлений).
4.1.4Предположения о характере истинной зависимости
Что же делать? Если не требовать от ничего сверх непрерывности, у нас мало шансов сделать что-то лучше. К счастью, часто мы можем предположить, что обладает какими-то дополнительными хорошими свойствами, и в этом предположении справиться с проклятием размерности.Непрерывность выглядит самым слабым из разумных предположений о виде истинной зависимости между и . Самым сильным предположением является утверждение о независимости и — в этом случае, в частности, является константой и наш алгоритм должен выдавать предсказание, вообще не глядя на . Это предположение кажется черезчур сильным, оно делает задачу бессмысленной. Чуть менее сильным и при этом достаточно разумным предположением является линейность фукции . Накладывая это ограничение на мы попадаем в мир линейных моделей, которому будут посвящены эта и следующие несколько лекций.
4.2Задача линейной регрессии
4.2.1Общая постановка задачи
Пусть теперь зафиксированы, а являются случайными величинами. Мы предполагаем, что истинная связь между и является линейной, плюс некоторая случайная ошибка. А именно, существует такой вектор (вектор весов), чтоВ этом случае процесс обучения линейной модели состоит в нахождении вектора по имеющимся данным. Как это сделать?
Если бы модель была на 100% верна и ошибки отсутствовали ( для всех ), то уравнение (4.2) было бы линейным уравнением на , из которого можно было бы найти последний. В реальности же приходится использовать другие методы — в частности, метод максимального правдоподобия.
4.2.2Оценка параметров распределения с помощью максимизации правдоподобия
Сделаем небольшое отступление и рассмотрим более простую задачу. Пусть у нас есть — выборка из нормального распредления с неизвестными параметрами и . Рассмотрим функцию правдоподобия (likelihood): Она показывает, какова плотность вероятности получить тот набор данных, который мы получили, то есть насколько правдоподобно было получить эти данные из распределения с указанными параметрами. Переход к произведению в первой строчке связан с тем, что мы предполагаем независимыми. Для фиксированных данных , правдоподобие — это функция от и .Найдём MLE-оценку для нашего примера. Обычно вместо того, чтобы максимизировать само правдоподобие, максимизируют его логарифм (log-likelihood).
4.2.3Линейная регрессия с гауссовыми ошибками
Чтобы воспользоваться методом максимизации правдоподобия для линейной регрессии необходимо уточнить постановку задачи (4.2). А именно, предположим, что все распределены в соответствии с нормальным законом (и как обычно независимы):Заметим, что задачу минимизации , которую мы получили методом наибольшего правдоподобия, предположив нормальность остатков, можно интерпретировать иначе. В самом начале лекции мы говорили о том, что в задаче машинного обучения обычно задана некоторая функция потерь .
Если функция потерь является квадратичной, то эмпирическим риском и оказывается . Таким образом, метод наименьших квадратов оказывается частным случаем метода минимизации эмпирического риска, выходящего далеко за рамки линейных моделей.
Такая интерпретация, лишенная связи с теории вероятностей, даёт большую свободу. Теперь мы можем выбирать любую функцию потерь и находить оценку для , полученную минимизацией эмпирического риска, создавая таким образом разнообразные алгоритмы машинного обучения, обладающие разными свойствами (связанными со свойствами функции потерь). Об этом мы поговорим позже.
4.3Явный вид МНК-оценки
4.3.1МНК в матричной форме
Запишем обучающую выборку в матричном виде. Пусть — матрица объект-признак, по строкам которой записаны векторы .Верный ответ. Верно, строк столько, сколько объектов
Неверный ответ. А вот и нет!
Нам приходится внести небольшую путаницу — раньше буквой обозначалась случайная величина, а теперь (и до конца этой лекции) — фиксированная матрица.
Вектор — вектор правильных ответов. Теперь можно представить в виде:
Для фиксированных и , функция является отображением из в . У него есть градиент и необходимым условием экстремума является равенство этого градиента нулю.
4.3.2Немного о градиентах
Чтобы найти градиент нам необходимо напомнить определения и доказать несколько вспомогательных утверждений.Градиент также часто обозначается для векторного аргумента .
4.3.3Вывод МНК-оценки
Теперь всё готово к тому, чтобы найти градиент . Запишем (4.7) в следующем виде:Таким образом:
Верный ответ. Потому что , вообще говоря, не квадратная матрица, и обратная у неё не определена. Если же вдруг оказалась квадратной и обратимой, записать так можно — это будет означать, что у нас число наблюдений равно числу переменных и мы можем найти идеальное решение, дающее нулевые остатки, которое будет задаваться указанной формулой.