Перейти к основному содержимому

Ранняя остановка и зашумление входов

Ранняя остановка

Ранняя остановка (early stopping) - другой пример ограничения нейросети, чтобы уменьшить её степень переобучения. Для этого нужно отслеживать потери модели по ходу обучения как на обучающей, так и на валидационной выборке, и заранее остановить обучение, когда потери на валидации начнут расти:

После пунктирной линии модель начинает настраиваться на частные особенности обучающей выборки - специфику обучающих объектов, шум в данных, поэтому имеет смысл заранее прервать обучение, получив более простую и менее переобученную модель за счёт её менее тщательной настройки.

Зашумление данных

Другим приёмом упрощения модели служит её обучение на зашумлённых версиях объектов:

(x,y)(x+ε,y),(x,y) \to (x+\varepsilon,y),

где ε\varepsilon - случайный шум, обладающий свойствами:

Eε=0,cov{ε}=λI,\mathbb{E}\varepsilon = 0, \quad \text{cov}\{\varepsilon\}=\lambda I,

где IRD×DI\in\mathbb{R}^{D\times D} - единичная матрица. При этом применение модели осуществляется на исходных данных без зашумления.

В [1] доказывается, что обучение регресии f(x)f(x), минимизируя MSE критерий на зашумлённых данных, эквивалентно обучению сети на незашумлённых данных с добавлением следующей регуляризации:

1Nn=1N(f(xn)yn)2+λxf(x)2minw\frac{1}{N}\sum_{n=1}^N (f(x_n)-y_n)^2 + \textcolor{red}{\lambda \| \nabla_x f(x) \|^2} \to \min_w

Таким образом, по сути, зашумление признаков требует от модели, чтобы изменение её прогнозов было менее резким при небольшом изменении вектора признаков xx. В случае, когда f(x)f(x) - линейная регрессия, зашумление эквивалентно L2L_2 регуляризации весов, что показывалось ранее.

Литература

  1. Bishop C. M. Regularization and complexity control in feed-forward networks. – 1995.