Перейти к основному содержимому

Ранняя остановка и зашумление входов

Ранняя остановка

Ранняя остановка (early stopping) - другой пример ограничения нейросети, чтобы уменьшить её степень переобучения. Для этого нужно отслеживать потери модели по ходу обучения на валидационной выборке и заранее остановить обучение, когда потери на валидации начнут расти.

На графике ниже нужно остановить обучение сети по достижении пунктирной линии:

Эта стратегия объясняется тем, что вначале модель учится восстанавливать общую закономерность в данных, а начиная с некоторого момента - уже начинает переобучаться на частные особенности той или иной реализации обучающей выборки, см. главу про переобучение моделей машинного обучения.

Поэтому имеет смысл заранее прервать обучение, получив более простую и менее переобученную модель за счёт менее тщательной её настройки.

Зашумление данных

Другим приёмом упрощения модели служит её обучение на зашумлённых версиях объектов:

(x,y)(x+ε,y),(\mathbf{x},y) \to (\mathbf{x}+\mathbf{\varepsilon},y),

где ε\mathbf{\varepsilon} - DD-мерный вектор случайных чисел (случайный шум), обладающий свойствами:

Eε=0,cov{ε}=λI,\mathbb{E}\mathbf{\varepsilon} = 0, \quad \text{cov}\{\mathbf{\varepsilon}\}=\lambda I,

где IRD×DI\in\mathbb{R}^{D\times D} - единичная матрица. При этом применение модели осуществляется на исходных данных без зашумления.

В [1] доказывается, что обучение регресии f(x)f(\mathbf{x}), минимизируя MSE критерий на зашумлённых данных, эквивалентно обучению сети на незашумлённых данных с добавлением следующей регуляризации:

1Nn=1N(f(xn)yn)2+λxf(x)2minw\frac{1}{N}\sum_{n=1}^N (f(\mathbf{x}_n)-y_n)^2 + \textcolor{red}{\lambda \| \nabla_\mathbf{x} f(\mathbf{x}) \|^2} \to \min_\mathbf{w}

Таким образом, по сути, зашумление признаков требует от модели, чтобы изменение её прогнозов было менее резким при небольшом изменении вектора признаков xx, что отвечает реальным зависимостям в данных на практике.

В случае, когда f(x)f(\mathbf{x}) - линейная регрессия, зашумление эквивалентно L2L_2 регуляризации весов, что показывалось ранее.

Литература

  1. Bishop C. M. Regularization and complexity control in feed-forward networks. – 1995.