Перейти к основному содержимому

Доказательство разложения

Докажем разложение на смещение и разброс:

EX,Y,ε{[f^(x)y(x)]2}=(EX,Y{f^(x)}f(x))2+EX,Y{[f^(x)EX,Yf^(x)]2}+Eε2\begin{align*}\mathbb{E}_{X,Y,\varepsilon}\{[\widehat{f}(\mathbf{x})-y(\mathbf{x})]^{2}\}=&\left(\mathbb{E}_{X,Y}\{\widehat{f}(\mathbf{x})\}-f(\mathbf{x})\right)^{2}\\&+\mathbb{E}_{X,Y}\left\{ [\widehat{f}(\mathbf{x})-\mathbb{E}_{X,Y}\widehat{f}(\mathbf{x})]^{2}\right\} +\mathbb{E}\varepsilon^{2}\end{align*}

Зафиксируем x\mathbf{x}, для которого строится прогноз. Далее везде в математических ожиданиях будет производиться усреднение по всевозможным реализациям обучающей выборки и случайного шума, то есть

E{}=EX,Y,ε{}.\mathbb{E}\{\cdot\} = \mathbb{E}_{X,Y,\varepsilon}\{\cdot\}.

Для начала разложим следующее выражение:

E{(f^(x)f(x))2}=E{(f^(x)Ef^(x)+Ef^(x)f(x))2}=E{(f^(x)Ef^(x))2}+E{(Ef^(x)f(x))2}+2E[(f^(x)Ef^(x))(Ef^(x)f(x))]=E{(f^(x)Ef^(x))2}+(Ef^(x)f(x))2\begin{align*}\mathbb{E}\left\{\left(\widehat{f}(\mathbf{x})-f(\mathbf{x})\right)^{2}\right\}&= \mathbb{E}\left\{\left(\widehat{f}(\mathbf{x})-\mathbb{E}\widehat{f}(\mathbf{x})+\mathbb{E}\widehat{f}(\mathbf{x})-f(\mathbf{x})\right)^{2}\right\}\\ &=\mathbb{E}\left\{\left(\widehat{f}(\mathbf{x})-\mathbb{E}\widehat{f}(\mathbf{x})\right)^{2}\right\}+\mathbb{E}\left\{\left(\mathbb{E}\widehat{f}(\mathbf{x})-f(\mathbf{x})\right)^{2}\right\}\\&+2\mathbb{E}\left[(\widehat{f}(\mathbf{x})-\mathbb{E}\widehat{f}(\mathbf{x}))(\mathbb{E}\widehat{f}(\mathbf{x})-f(\mathbf{x}))\right]\\&=\mathbb{E}\left\{\left(\widehat{f}(\mathbf{x})-\mathbb{E}\widehat{f}(\mathbf{x})\right)^{2}\right\}+\left(\mathbb{E}\widehat{f}(\mathbf{x})-f(\mathbf{x})\right)^{2}\end{align*}

где мы воспользовались тем, что (Ef^(x)f(x))(\mathbb{E}\widehat{f}(\mathbf{x})-f(\mathbf{x})) - константа, значит

E{(f^(x)Ef^(x))(Ef^(x)f(x))}=(Ef^(x)f(x))E{f^(x)Ef^(x)}=0\begin{align*} \mathbb{E}\{(\widehat{f}(\mathbf{x})-\mathbb{E}\widehat{f}(\mathbf{x}))(\mathbb{E}\widehat{f}(\mathbf{x})-f(\mathbf{x}))\}\\&=(\mathbb{E}\widehat{f}(\mathbf{x})-f(\mathbf{x}))\mathbb{E}\{\widehat{f}(\mathbf{x})-\mathbb{E}\widehat{f}(\mathbf{x})\}=0 \end{align*}

Следовательно

E{(f^(x)y)2}=E{(f^(x)f(x)ε)2}=E{(f^(x)f(x))2}+Eε22E[(f^f)ε]=E{(f^(x)Ef^(x))2}+(Ef^(x)f(x))2+Eε2\begin{align*} \mathbb{E}\left\{\left(\widehat{f}(\mathbf{x})-y\right)^{2}\right\} &= \mathbb{E}\left\{\left(\widehat{f}(\mathbf{x})-f(\mathbf{x})-\varepsilon\right)^{2}\right\}\\ &=\mathbb{E}\left\{\left(\widehat{f}(\mathbf{x})-f(\mathbf{x})\right)^{2}\right\}+\mathbb{E}\varepsilon^{2}-2\mathbb{E}\left[(\widehat{f}-f)\varepsilon\right] \\ &= \mathbb{E}\left\{\left(\widehat{f}(\mathbf{x})-\mathbb{E}\widehat{f}(\mathbf{x})\right)^{2}\right\}+\left(\mathbb{E}\widehat{f}(\mathbf{x})-f(\mathbf{x})\right)^{2}+\mathbb{E}\varepsilon^{2} \end{align*}

где, в силу независимости случайных величин f^(x)\hat{f}(\mathbf{x}) (которая зависит только от X,YX,Y) и ε\varepsilon:

E[(f^(x)f(x))ε]=E[(f^(x)f(x))]Eε=0\mathbb{E}\left[(\widehat{f}(\mathbf{x})-f(\mathbf{x}))\varepsilon\right]=\mathbb{E}\left[(\widehat{f}(\mathbf{x})-f(\mathbf{x}))\right]\mathbb{E}\varepsilon=0