Регуляризация
В машинном и, в частности, глубоком обучении с учителем решается задача обобщения зависимости между входом и выходом для конечной обучающей выборки
чтобы уметь предсказывать значение выхода для произвольного входа , испо льзуя прогноз:
Параметры прогнозной функции подбираются, минимизируя эмпирический риск на обучающей выборке.
Эта задача является недоопределённой (ill-posed), поскольку существует бесконечно много функций, принимающих заданные значения на конечном наборе наблюдений . Если рассматривать всё многообразие потенциальных зависимостей , то никакая прогнозная функция не обладает преимуществом, поскольку значения целевой переменной на тестовой выборке теоретически могут быть любыми, что подтверждается теоретическими результатами - No Free Lunch теоремой [1], [2].
Поэтому увеличение гибкости и сложности прогностической модели далеко не всегда приводит к увеличению её практической полезности. Сложная прогнозная функция может хорошо описывать обучающую выборку, но строить неточные прогнозы на тестовой выборке за счёт некорректной экстраполяции зависимости на новые наблюдения, т.е. быть переобученной и иметь низкую обобщающую способность.
К счастью, в реальные зависимости, встречающиеся на практике, не являются произвольными, а обладают некоторыми свойствами регулярности. Например, являются непрерывными, т.е. при уменьшении разницы между входами, разница между выходами функции также должна стремиться к нулю. Более сильным условием регулярности является условие Липшица [3], при котором разница между выходами будет меньше порога, если разница между входами ниже некоторого другого порога, который не зависит от входов и выходов.
За счёт подобных предположений, чаще всего действительно выполняющихся на практике, удаётся достичь хорошей обобщаемости результатов прогнозирования, даже по конечной обучающей выборке.
Регуляризация (regularization) - ограничение перебора возможных моделей при настройке прогностической функции, используя априорные предположения о реальной зависимости в данных (inductive bias, prior knowledge).
Чтобы улучшить обобщаемую способность модели, необходимо использовать такую регуляризацию, чтобы это ограничение соответствовало реальным зависимостям между входами и выходами.
Если ограничения, накладываемые регуляризацией, не соответствуют реальной зависимости, то использование этих ограничений может и ухудшить качество модели. Например, если мы будем предполагать линейную зависимость между входами и выходами, а реальная зависимость окажется нелинейной.
Далее мы рассмотрим всевозможные виды регуляризации, применяемые к нейросетям, чтобы повысить их обобщающую способность на новых данных.