Перейти к основному содержимому

Линейный ансамбль моделей

Для повышения точности прогнозов часто используют ансамбли моделей (model ensemble), называемые также композициями моделей. Для этого используют прогнозы MM базовых моделей f1(x),...fM(x)f_{1}\left(\mathbf{x}\right),...f_{M}\left(\mathbf{x}\right), а итоговый прогноз строят через агрегирующей модель (называемую также мета-моделью) G(f1(x),...fM(x))G(f_{1}\left(\mathbf{x}\right),...f_{M}\left(\mathbf{x}\right)). Таким образом, прогнозы базовых моделей выступают признаками для агрегирующей модели .

Часто используется линейная комбинация прогнозов различных моделей:

y^(x)=f(x)Tw^=w^1f1(x)+...+w^MfM(x)\widehat{y}(\mathbf{x})=f\left(\mathbf{x}\right)^{T}\widehat{\mathbf{w}}=\hat{w}_1 f_1(\mathbf{x})+...+\hat{w}_M f_M(\mathbf{x})

Веса w\mathbf{w} этой модели настраиваются через линейную регрессию, признаками которой выступают прогнозы базовых моделей. Чтобы избежать переобучения коэффициенты настраиваются на отдельной обучающей выборке, а не выборке по которой настраивались параметры базовых моделей.

Веса можно настраивать обычным способом, а можно ввести дополнительные требования из логики задачи:

{n=1N(f(xn)Twyn)2+λm=1M(wm1M)2minwwm0,m=1,2,...M.(1)\begin{cases} \sum_{n=1}^{N}\left(f\left(\mathbf{x}_{n}\right)^{T}\mathbf{w}-y_{n}\right)^{2}+\lambda\sum_{m=1}^{M}\left(w_{m}-\frac{1}{M}\right)^{2}\to\min_{\mathbf{w}}\\ w_{m}\ge 0,\quad m=1,2,...M. \end{cases} \tag{1}

Вместо L2-регуляризации рекомендуется использовать приближение весов к равномерным (1M,1M,...1M)(\frac{1}{M},\frac{1}{M},...\frac{1}{M}). Тогда для больших λ\lambda модель будет сдвигаться к равномерному усреднению прогнозов базовых моделей, а не к константному нулю.

Добавление смещения

Если базовые модели систематически переоценивают или недооценивают прогноз, то в агрегирующую модель можно добавить смещение w0w_0.