Перейти к основному содержимому

Регуляризация

В машинном и, в частности, глубоком обучении с учителем решается задача обобщения зависимости между входом и выходом для конечной обучающей выборки

{(x1,y1),(x2,y2),...(xN,yN)},\{(\mathbf{x}_1,y_1),(\mathbf{x}_2,y_2), ... (\mathbf{x}_N,y_N)\},

чтобы уметь предсказывать значение выхода yy для произвольного входа xx, используя прогноз:

y^=fw(x)\hat{y}=f_\mathbf{w}(\mathbf{x})

Параметры w\mathbf{w} прогнозной функции подбираются, минимизируя эмпирический риск на обучающей выборке.

Обратим внимание, что это задача является недоопределённой (ill-posed), поскольку существует бесконечно много функций, принимающих заданные значения y1,y2,...yNy_1,y_2,...y_N на конечном наборе наблюдений x1,x2,...xN\mathbf{x}_1,\mathbf{x}_2,...\mathbf{x}_N. Если рассматривать всё многообразие реальных зависимостей y(x)y(\mathbf{x}), то никакая прогнозная функция f(x)f(\mathbf{x}) не обладает преимуществом, поскольку значения целевой переменной на тестовой выборке y(xN+1),y(xN+2),...y(\mathbf{x}_{N+1}),y(\mathbf{x}_{N+2}),... теоретически могут быть любыми.

Теоретические результаты

Это же утверждает No Free Lunch теорема из [1,2] для методов оптимизации, утверждающая, что для минимизируемой функции общего вида любой алгоритм численной оптимизации, использующий одинаковое число итераций одинаково хорош и, если усреднять по минимизируемым функциям, ничем не лучше случайного поиска. Правда, в статье рассматривается минимизация функции, отображающей конечное число значений в конечное число выходов, но, учитывая конечную разрядность представления чисел на компьютере, это соответствует практике применения машинного и глубокого обучения.

Поэтому увеличение гибкости и сложности прогностической модели далеко не всегда приводит к увеличению её практической полезности. Сложная прогнозная функция может хорошо описывать обучающую выборку, но строить неточные прогнозы на тестовой выборке за счёт некорректной эстраполяции зависимости на новые наблюдения, т.е. быть переобученной и иметь низкую обобщающую способность.

К счастью, в реальной жизни зависимости между входами и выходами (и, как следствие, оптимизируемые функции потерь) не являются произвольными, а обладают некоторыми свойствами регулярности. Например, являются непрерывными, т.е., при уменьшении к нулю разницы между входами, разница между выходами также должна стремиться к нулю. Более сильным условием регулярности является условие Липшица, при котором разница между выходами будет меньше порога, если разница между входами ниже некоторого другого порога, не зависящего от входов и выходов.

За счёт подобных предположений, чаще всего действительно выполняющихся на практике, удаётся достичь хорошей обобщаемости результатов прогнозирования, даже по конечной обучающей выборке.

Регуляризация (regularization) - ограничение перебора возможных моделей при настройке прогностической функции, используя априорные предположения о реальной зависимости в данных (inductive bias, prior knowledge).

Чтобы улучшить обобщаемую способность модели, необходимо использовать такую регуляризацию, чтобы это ограничение соответствовало реальным зависимостям между входами и выходами.

Регуляризация может и навредить

Если ограничения, накладываемые регуляризацией, не соответствуют реальной зависимости, то использование этих ограничений может, напротив, ухудшить качество модели. Например, если мы будем предполагать линейную зависимость между входами и выходами, а реальная зависимость окажется нелинейной.

Далее мы рассмотрим всевозможные популярные виды регуляризации, повышающие обобщающую способность моделей для практических задач.

Литература

  1. Wolpert D. H., Macready W. G. No free lunch theorems for optimization //IEEE transactions on evolutionary computation. – 1997. – Т. 1. – №. 1. – С. 67-82.

  2. https://en.wikipedia.org/wiki/No_free_lunch_theorem