Взвешенный учёт наблюдений

Классическая функция потерь минимизирует средние потери с равномерным учётом всех объектов:

\frac{1}{N}\sum_{n=1}^{N}\mathcal{L}(f_{\mathbf{w}}(\mathbf{x}_{n}),\,y_{n}) \to \min_\mathbf{w}

Но различные объекты можно учитывать по-разному, задав свой вес для учёта каждого объекта:

\begin{gathered} \sum_{n=1}^{N}{\color{red}\alpha_{n}}\mathcal{L}(f_{\mathbf{w}}(\mathbf{x}_{n}),\,y_{n})\to\min_{\beta}\\ {\color{red}\alpha_{1}\ge 0,\, \alpha_{2}\ge 0, \, ... \, \alpha_{N}\ge0} \end{gathered}

Взвешенный учёт наблюдений позволяет занижать вес подозрительных объектов (информация о которых получена из ненадёжных источников) или объектов-выбросов (выбивающихся из общего распределения или на которых модель сильно ошибается).

Также взвешенный учёт наблюдений позволяет сбалансировать выборку по некоторой характеристике. Пусть, например, мы предсказываем зарплату для мужчин и женщин по их характеристикам, и наблюдений в обучающей выборке по женщинам гораздо больше, чем по мужчинам. Чтобы сделать модель с глобальной применимостью как для мужчин, так и для женщин без смещения в сторону того или иного пола, мы можем учитывать наблюдения для женщин с меньшим весом, а для мужчин - с большим.

Другой вариант применения

В первой реализации алгоритма бустинга AdaBoost прогноз строился взвешенной суммой одинаковых моделей, каждая из которых настраивалась по одной и той же обучающей выборке, а изменялись только веса объектов. Тем объектам, на которых ранее настроенная модель сильнее ошибалась, задавались повышенные веса при настройке новой уточняющей модели, чтобы она провела на них более тщательную "работу над ошибками".