Веса в метрических методах
Веса с которыми учитываются ближайшие соседи, должны быть неотрицательными и убывать с ростом расстояния до ближайшего соседа.
Их можно сделать зависимыми от порядкового номера ближайшего соседа:
Тогда они будут убывать по экспоненциальному закону от порядкового номера соседа.
Также их можно сделать убывающими по линейному закону:
Более естественно сделать веса зависящими от расстояния до ближайшего соседа , а не от его порядкового номера. Пусть - ближайшие соседи в обучающей выборке для целевого объекта , для которого мы строим прогноз.
Веса можно сделать убывающими по гиперболическому закону:
В чём недостаток такого выбора весов и как его исправить?
При приближении к соседу его вес будет неограниченно возрастать, в результате чего отклик на этом объекте начнёт перевешивать отклики на других соседях. Чтобы воспрепятствовать неограниченному возрастанию весов, нужно его ограничить сверху некоторой константой :
Также можно сделать веса убывающими по линейному закону:
В более общем виде веса определяются по формуле:
для некоторой убывающей функции , называемой ядром (kernel) и зависящей от расстояния между объектами , нормированной на параметр ширины окна (bandwidth), который в общем случае представляет собой не константу, а тоже функцию от .
Графики популярных ядер приведены ниже вместе с формулами для их расчёта (источник).
Ядро | Формула |
---|---|
top-hat | |
линейное | |
Епанечникова | |
экспоненциальное | |
Гауссово | |
квартическое |
Гиперпараметр ширины окна определяет, насколько сильно меняются веса при изменении расстояний до объектов. Чем выше, тем слабее веса зависят от расстояний, а при веса стремятся к равномерным, и взвешенный метод ближайших соседей стремится к обычному (без весов).
Ширину окна можно варьировать в зависимости от целевого объекта, поэтому в общем случае она записывается как .