Перейти к основному содержимому

Аналитическое решение для гребневой регрессии

В гребневой регрессии вектор весов w\mathbf{w} находится из условия:

L(w)=n=1N(xnTwyn)2+λwTwminwL(\mathbf{w})=\sum_{n=1}^{N}\left(\mathbf{x}_{n}^{T}\mathbf{w}-y_{n}\right)^{2}+\lambda \mathbf{w}^{T}\mathbf{w}\to\min_{\mathbf{w}}

Поскольку этот критерий выпуклый (докажите!) минимум является глобальным минимумом и находится из условия L(w)=0\nabla L(\mathbf{w})=0:

2n=1Nxn(xnTw^yn)+2λw^=0,2\sum_{n=1}^{N}\mathbf{x}_{n}\left(\mathbf{x}_{n}^{T}\widehat{\mathbf{w}}-y_{n}\right)+2\lambda\widehat{\mathbf{w}}=0,

откуда, используя обозначение IRD×DI\in\mathbb{R}^{D\times D}, для единичной матрицы получаем:

(n=1NxnTxn)w^+λIw^=n=1Nxnyn\lparen \sum_{n=1}^N \mathbf{x}_n^T \mathbf{x}_n \rparen \hat{\mathbf{w}}+\lambda I \hat{\mathbf{w}} = \sum_{n=1}^N \mathbf{x}_n y_n (n=1NxnTxn+λI)w^=n=1Nxnyn\lparen \sum_{n=1}^N \mathbf{x}_n^T \mathbf{x}_n +\lambda I \rparen \hat{\mathbf{w}} = \sum_{n=1}^N \mathbf{x}_n y_n

Используя обозначения для матрицы объекты-признаки XRN×DX\in\mathbb{R}^{N\times D} и вектора откликов YRNY\in \mathbb{R}^N, это можно переписать в виде:

(XTX+λI)w^=XTY,\left(X^{T}X+\lambda I\right)\widehat{\mathbf{w}}=X^{T}Y,

откуда получим итоговый вид аналитического решения:

w^=(XTX+λI)1XTY\widehat{\mathbf{w}}=(X^{T}X+\lambda I)^{-1}X^{T}Y
Существование решения

Обратим внимание, что матрица XTX+λIX^{T}X+\lambda I положительно-определена (докажите!), поэтому всегда невырождена для любых λ>0\lambda>0. Поэтому решение всегда существует, в отличие от линейной регрессии без регуляризации. Интуитивно решение существует, поскольку даже в случае линейной зависимости признаков регуляризация привносит в него однозначность - среди всех решений нужно найти то, которое обладает максимальной простотой (минимизирует w22\|\mathbf{w}\|_2^2).