Обобщение метода K ближайших соседей с весами

В методе K ближайших соседей отклики ближайших объектов учитываются равномерно, с одинаковыми весами. Можно дополнительно повысить качество прогнозов, если позволить более близким ближайшим соседям влиять сильнее на прогноз, чем более далёким. Для этого равномерное усреднение по ближайшим соседям заменяется на взвешенное усреднение, где больший вес будет соответствовать более близким соседям.

Обозначим $(\tilde{\mathbf{x}}_{1},\tilde{y}_{1}),(\tilde{\mathbf{x}}_{2},\tilde{y}_{2}),...(\tilde{\mathbf{x}}_{K},\tilde{y}_{K})$ - ближайшие соседи в обучающей выборке для целевого объекта $\mathbf{x}$ , для которого мы строим прогноз. Причем эти соседи упорядочены по возрастанию расстояния от них до целевого объекта $\mathbf{x}$ :

\rho(\mathbf{x},\tilde{\mathbf{x}}_{1})\le\rho(\mathbf{x},\tilde{\mathbf{x}}_{2})\le...\le\rho(\mathbf{x},\tilde{\mathbf{x}}_{K})

Регрессионный прогноз базового метода строится простым усреднением по откликам ближайших соседей:

\widehat{y}(\mathbf{x})=\frac{1}{K}\sum_{k=1}^{K}\tilde{y}_{k}

Взвешенное обобщение строится уже взвешенным усреднением откликов:

\widehat{y}(\mathbf{x})=\frac{\sum_{k=1}^{K}w_k \tilde{y}_{k}}{\sum_{k=1}^{K}w_k}

Аналогично в задаче классификации базовым методом вероятности классов строятся по формуле:

\frac{1}{K}\begin{pmatrix} \sum_{k=1}^{K}\mathbb{I}[\tilde{y}_{k}=1] \\ \sum_{k=1}^{K}\mathbb{I}[\tilde{y}_{k}=2] \\ \cdots \\ \sum_{k=1}^{K}\mathbb{I}[\tilde{y}_{k}=C] \\ \end{pmatrix}

Взвешенное обобщение учитывает каждого ближайшего соседа со своим весом:

\frac{1}{\sum_{k=1}^K w_k}\begin{pmatrix} \sum_{k=1}^{K}w_k\mathbb{I}[\tilde{y}_{k}=1] \\ \sum_{k=1}^{K}w_k\mathbb{I}[\tilde{y}_{k}=2] \\ \cdots \\ \sum_{k=1}^{K}w_k\mathbb{I}[\tilde{y}_{k}=C] \\ \end{pmatrix}

О популярных методах расчета весов можно прочитать в следующей главе.