Регуляризация

В машинном и, в частности, глубоком обучении с учителем решается задача обобщения зависимости между входом и выходом для конечной обучающей выборки

\{(\mathbf{x}_1,y_1),(\mathbf{x}_2,y_2), ... (\mathbf{x}_N,y_N)\},

чтобы уметь предсказывать значение выхода $y$ для произвольного входа $x$ , используя прогноз:

\hat{y}=f_\mathbf{w}(\mathbf{x})

Параметры $\mathbf{w}$ прогнозной функции подбираются, минимизируя эмпирический риск на обучающей выборке.

Эта задача является недоопределённой (ill-posed), поскольку существует бесконечно много функций, принимающих заданные значения $y_1,y_2,...y_N$ на конечном наборе наблюдений $\mathbf{x}_1,\mathbf{x}_2,...\mathbf{x}_N$ . Если рассматривать всё многообразие потенциальных зависимостей $y(\mathbf{x})$ , то никакая прогнозная функция $f(\mathbf{x})$ не обладает преимуществом, поскольку значения целевой переменной на тестовой выборке $y(\mathbf{x}_{N+1}),y(\mathbf{x}_{N+2}),...$ теоретически могут быть любыми, что подтверждается теоретическими результатами - No Free Lunch теоремой [1], [2].

Поэтому увеличение гибкости и сложности прогностической модели далеко не всегда приводит к увеличению её практической полезности. Сложная прогнозная функция может хорошо описывать обучающую выборку, но строить неточные прогнозы на тестовой выборке за счёт некорректной экстраполяции зависимости на новые наблюдения, т.е. быть переобученной и иметь низкую обобщающую способность.

К счастью, в реальные зависимости, встречающиеся на практике, не являются произвольными, а обладают некоторыми свойствами регулярности. Например, являются непрерывными, т.е. при уменьшении разницы между входами, разница между выходами функции также должна стремиться к нулю. Более сильным условием регулярности является условие Липшица [3], при котором разница между выходами будет меньше порога, если разница между входами ниже некоторого другого порога, который не зависит от входов и выходов.

За счёт подобных предположений, чаще всего действительно выполняющихся на практике, удаётся достичь хорошей обобщаемости результатов прогнозирования, даже по конечной обучающей выборке.

Регуляризация (regularization) - ограничение перебора возможных моделей при настройке прогностической функции, используя априорные предположения о реальной зависимости в данных (inductive bias, prior knowledge).

Чтобы улучшить обобщаемую способность модели, необходимо использовать такую регуляризацию, чтобы это ограничение соответствовало реальным зависимостям между входами и выходами.

Регуляризация может и навредить

Если ограничения, накладываемые регуляризацией, не соответствуют реальной зависимости, то использование этих ограничений может и ухудшить качество модели. Например, если мы будем предполагать линейную зависимость между входами и выходами, а реальная зависимость окажется нелинейной.

Далее мы рассмотрим всевозможные виды регуляризации, применяемые к нейросетям, чтобы повысить их обобщающую способность на новых данных.

Регуляризация

Литература​

Литература