Перейти к основному содержимому

Регуляризация

В машинном и, в частности, глубоком обучении с учителем решается задача обобщения зависимости между входом и выходом для конечной обучающей выборки

{(x1,y1),(x2,y2),...(xN,yN)},\{(x_1,y_1),(x_2,y_2), ... (x_N,y_N)\},

чтобы уметь предсказывать значение выхода yy для произвольного входа xx, используя прогноз:

y^=fw(x)\hat{y}=f_w(x)

Параметры ww прогнозной функции подбираются, минимизируя эмпирический риск на обучающей выборке.

Обратим внимание, что это задача является недоопределённой (ill-posed), поскольку существует бесконечно много функций, принимающих заданные значения y1,y2,...yNy_1,y_2,...y_N на конечном наборе наблюдений x1,x2,...xNx_1,x_2,...x_N. Если рассматривать всё многообразие реальных зависимостей y(x)y(x), то никакая прогнозная функция f(x)f(x) не обладает преимуществом, поскольку значения целевой переменной на тестовой выборке y(xN+1),y(xN+2),...y(x_{N+1}),y(x_{N+2}),... теоретически могут быть любыми.

Это же утверждает No Free Lunch теорема из [1,2] для методов оптимизации, утверждающая, что для минимизируемой функции общего вида любой алгоритм численной оптимизации, использующий одинаковое число итераций одинаково хорош и, если усреднять по минимизируемым функциям, ничем не лучше случайного поиска. Правда, в статье рассматривается минимизация функции, отображающей конечное число значений в конечное число выходов, но, учитывая конечную разрядность представления чисел на компьютере, это описывает практику применения машинного и глубокого обучения.

Поэтому увеличение гибкости и сложности прогностической модели далеко не всегда приводит к увеличению её практической полезности. Сложная прогнозная функция может отлично описывать обучающую выборку, но строить неточные прогнозы на тестовой выборке за счёт некорректной эстраполяции зависимости на новые наблюдения, т.е. быть переобученной и иметь низкую обобщающую способность.

К счастью, в реальной жизни зависимости между входами и выходами (и, как следствие, оптимизируемые функции потерь) не являются произвольными, а обладают некоторыми свойствами регулярности. Например, являются непрерывными, т.е., при уменьшении к нулю разницы между входами, разница между выходами также будет стремиться к нулю. Более сильным условием регулярности является условие Липшица, при котором можно всегда быть уверенным, что разница между выходами будет меньше порога, если разница между входами ниже некоторого общего порога, не зависящего от входов и выходов.

За счёт подобных предположений, чаще всего действительно выполняющихся на практике, удаётся достичь хорошей обобщаемости результатов прогнозирования, даже по конечной обучающей выборке.

Регуляризация (regularization) - ограничение перебора при настройке прогностической функции, используя априорные предположения о реальной зависимости в данных (inductive bias, prior knowledge)

Чтобы улучшить обобщаемую способность модели, необходимо использовать такую регуляризацию, т.е. так ограничить пространство перебора прогностических функций-кандидатов, чтобы это ограничение соответствовало реальным зависимостям между входами и выходами.

Регуляризация может и навредить

Если ограничения, накладываемые регуляризацией, не соответствуют реальной зависимости, то использование этих ограничений может и навредить. Например, если мы будем предполагать линейную зависимость между входами и выходами, а реальная зависимость окажется нелинейной.

Далее в этом разделе мы рассмотрим всевозможные популярные виды регуляризации, повышающие обобщающую способность моделей для практических задач.

Литература

  1. Wolpert D. H., Macready W. G. No free lunch theorems for optimization //IEEE transactions on evolutionary computation. – 1997. – Т. 1. – №. 1. – С. 67-82.

  2. https://en.wikipedia.org/wiki/No_free_lunch_theorem