Выбор шага обучения

Важность уменьшения шага

Шаг обучения в градиентных методах $\eta$ (learning rate) - важнейший параметр оптимизации. Если его выбрать слишком большим, то оптимизация может расходиться, а если слишком малым - то сходимость будет слишком медленная. В [1] представлены условия сходимости метода.

Метод стохастического градиентного спуска теоретически сходится лишь в случае постепенного убывания шага обучения $\eta$ к нулю [2], поскольку, даже находясь в глобальном оптимуме, метод продолжает изменять веса, используя стохастическую оценку градиента потерь по случайным объектам. На практике шаг обучения не уменьшают до совсем малых значений, поскольку нас интересует быстрое нахождение приближённого решения, а не медленное - более точного.

Точное решение не имеет смысла, поскольку

мы все равно сходимся к локальному, а не глобальному оптимуму в связи с тем, что функция потерь невыпукла;

мы оптимизируем не точную функцию потерь (теоретический риск), а её приближение на обучающей выборке (эмпирический риск).

Но постепенное уменьшение шага обучения улучшает сходимость. Характер его уменьшения называется планом уменьшения шага обучения (learning rate schedule [3]).

Всегда уменьшайте шаг в процессе обучения!

Это касается всех изученных методов оптимизации по мини-батчам объектов: SGD, SGD+momentum, Nesterov momentum. Уменьшение шага также используется и в более продвинутых методах, которые самостоятельно уменьшают шаг, таких как Adagrad, RMSprop, Adam, о которых будет рассказано далее.

Планы уменьшения шага обучения

Разобьём процесс обучения сети на блоки $0,1,2,...K$ . Под блоком обычно понимается эпоха (epoch), т.е. полный проход по всем объектам обучающей выборки, но если выборка велика, блоки могут быть и меньше, например, из 10.000 объектов. Обозначим текущий блок через $t$ , принимающий в течение всего хода обучения значения $0,1,2,...T$ .

Используются следующие планы уменьшения шага обучения (learning rate schedule):

линейный: $\eta = \eta_0 (1-t/T)+\eta_T (t/T)$ , $\eta_0>\eta_T>0$ ;
полиномиальный: $\eta = \eta_0 / (1+\alpha t)^\beta$ , $\alpha>0, \beta\in (0,1)$ ; обычно $\eta = \eta_0 / \sqrt{1+t}$ ;
экспоненциальный $\eta = \eta_0 \alpha^t$ , $\alpha\in(0,1)$ ;
косинусный: $\eta = \eta_T+(\eta_0-\eta_T)(1+\cos(\pi t/T))/2$ .

$\eta_0,\eta_T,\alpha,\beta$ - гиперпараметры, подбираемые по валидационной выборке.

Косинусное уменьшение $\eta$ основано на предположении, что нужно некоторое время сохранять $\eta\approx \eta_0$ в начале обучения и $\eta=\eta_T$ - в конце.

Также часто используется адаптивный план уменьшения шага обучения (adaptive learning rate scheduling, Reduce Learning Rate on Plateau, RLRP), который динамически подстраивает уменьшение шага под характер сходимости. Шаг обучения уменьшается в $\alpha$ раз, если последние $P$ итераций не наблюдалось существенного уменьшения функции потерь (колебания были меньше чем на $\varepsilon$ ), где $P,\varepsilon$ - гиперпараметры метода.

Разогрев обучения

Часто начинают обучение не с максимальным значением шага обучения, а линейно его увеличивают с нуля до целевого значения, по достижении которого уже включают тот или иной план уменьшения шага. Такое начало обучения называется разогревом обучения (warm-up), а число разогревающих итераций называется периодом разогрева (warm-up period).

Это полезно при дообучении предобученной модели под целевую задачу, поскольку если сразу использовать большой шаг обучения, то это может сместить веса преобученных слоёв в случайную область.

Детальнее о различных стратегиях изменения шага обучения вы можете прочитать в [4]. Примеры использования этих стратегий в библиотеке PyTorch также доступны в [5].

Выбор шага обучения

Важность уменьшения шага​

Планы уменьшения шага обучения​

Разогрев обучения​

Литература​

Важность уменьшения шага

Планы уменьшения шага обучения

Разогрев обучения

Литература