Локально-постоянная регрессия
Локально-постоянная регрессия (local constant regression), известная также как ядерная регрессия (kernel regression) и регрессия Надарая-Ватсона (Nadaraya–Watson regression), представляет собой непараметрический метод для моделирования сложных регрессионных зависимостей.
Допустим, нам нужно моделировать некоторую нелинейную зависимость , показанную ниже:
Можно было бы искать наилучший в среднеквадратичном смысле константный прогноз:
Докажите, что оптимальный константный прогноз, мин имизирующий средний квадрат ошибки, это действительно выборочное среднее.
Однако константный прогноз нам не подходит, поскольку целевая зависимость нелинейная. Поэтому для построения прогноза в точке будем использовать локально-постоянный прогноз, получаемый в результате минимизации квадратов ошибок в локальной окрестности от целевой точки:
В общем случае локально-постоянная регрессия ищет наилучший константный прогноз, усредняя по всем объектам обучающей выборки, но с весами - чем объект более удалён от целевой точки, тем вес его меньше, и тем слабее он влияет на прогноз:
Докажите, что оптимальный константный прогноз, минимизирующий квадраты ошибок с весами, это действительно взвешенное среднее.
Веса определяются так же, как и в случае взвешенного учета ближайших соседей, через убывающую функцию ядра (kernel) от расстояния, нормированного на ширину окна (bandwidth):
Разница лишь в том, что теперь это веса для всех объектов обучающей выборки, а не только для ближайших соседей. Типовые ядра такие же, как раньше:
Ядро | Формула |
---|---|
top-hat | |
линейное | |
Епанечникова | |
экспоненциальное | |
Гауссово | |
квартическое |
а гиперпараметр ширины окна задаёт ширину усреднения. Для ядер top-hat, линейного, Епанечникова и квартического прогноз будет получаться усреднением только по точкам, лежащим на расстоянии не более чем от целевой. Для Гауссова и экспоненциального ядер усреднение всегда будет производиться по всем объектам, но основной вклад также будут давать объекты, лежащие в той же окрестности.
Вид ядра характеризует гладкость получаемой зависимости (рекомендуется Гауссово ядро и квартическое), однако на точность приближения больше всего влияет ширина окна - чем она выше, тем более плавной будет получаться зависимость, которая при будет стремиться к константе.
Целесообразно варьировать гиперпараметр для разных частей признакового пространства: чем гуще лежат обучающие объекты, тем меньше мы можем взять , производя полноценное усреднение по всё еще большому числу объектов. Поэтому в общем виде этот гиперпараметр также можно сделать зависящим от :
При каком выборе и локально-постоянная регрессия превратится в метод K ближайших соседей?
Поскольку прогноз локально-постоянной регрессии зависит от объектов только через расстояния до них, то это метрический метод, который мы можем обобщать, выбирая различные функции расстояния.
Этот метод, будучи метрическим, наследует преимущества и недостатки метода ближайших соседей.