Перейти к основному содержимому

Регуляризация

В машинном и, в частности, глубоком обучении с учителем решается задача обобщения зависимости между входом и выходом для конечной обучающей выборки

{(x1,y1),(x2,y2),...(xN,yN)},\{(\mathbf{x}_1,y_1),(\mathbf{x}_2,y_2), ... (\mathbf{x}_N,y_N)\},

чтобы уметь предсказывать значение выхода yy для произвольного входа xx, используя прогноз:

y^=fw(x)\hat{y}=f_\mathbf{w}(\mathbf{x})

Параметры w\mathbf{w} прогнозной функции подбираются, минимизируя эмпирический риск на обучающей выборке.

Эта задача является недоопределённой (ill-posed), поскольку существует бесконечно много функций, принимающих заданные значения y1,y2,...yNy_1,y_2,...y_N на конечном наборе наблюдений x1,x2,...xN\mathbf{x}_1,\mathbf{x}_2,...\mathbf{x}_N. Если рассматривать всё многообразие потенциальных зависимостей y(x)y(\mathbf{x}), то никакая прогнозная функция f(x)f(\mathbf{x}) не обладает преимуществом, поскольку значения целевой переменной на тестовой выборке y(xN+1),y(xN+2),...y(\mathbf{x}_{N+1}),y(\mathbf{x}_{N+2}),... теоретически могут быть любыми, что подтверждается теоретическими результатами - No Free Lunch теоремой [1], [2].

Поэтому увеличение гибкости и сложности прогностической модели далеко не всегда приводит к увеличению её практической полезности. Сложная прогнозная функция может хорошо описывать обучающую выборку, но строить неточные прогнозы на тестовой выборке за счёт некорректной экстраполяции зависимости на новые наблюдения, т.е. быть переобученной и иметь низкую обобщающую способность.

К счастью, в реальные зависимости, встречающиеся на практике, не являются произвольными, а обладают некоторыми свойствами регулярности. Например, являются непрерывными, т.е. при уменьшении разницы между входами, разница между выходами функции также должна стремиться к нулю. Более сильным условием регулярности является условие Липшица [3], при котором разница между выходами будет меньше порога, если разница между входами ниже некоторого другого порога, который не зависит от входов и выходов.

За счёт подобных предположений, чаще всего действительно выполняющихся на практике, удаётся достичь хорошей обобщаемости результатов прогнозирования, даже по конечной обучающей выборке.

Регуляризация (regularization) - ограничение перебора возможных моделей при настройке прогностической функции, используя априорные предположения о реальной зависимости в данных (inductive bias, prior knowledge).

Чтобы улучшить обобщаемую способность модели, необходимо использовать такую регуляризацию, чтобы это ограничение соответствовало реальным зависимостям между входами и выходами.

Регуляризация может и навредить

Если ограничения, накладываемые регуляризацией, не соответствуют реальной зависимости, то использование этих ограничений может и ухудшить качество модели. Например, если мы будем предполагать линейную зависимость между входами и выходами, а реальная зависимость окажется нелинейной.

Далее мы рассмотрим всевозможные виды регуляризации, применяемые к нейросетям, чтобы повысить их обобщающую способность на новых данных.

Литература

  1. Wikipedia: No free lunch theorem.
  2. Wolpert D. H., Macready W. G. No free lunch theorems for optimization //IEEE transactions on evolutionary computation. – 1997. – Т. 1. – №. 1. – С. 67-82.
  3. Wikipedia: Липшицево отображение.