Метод Ньютона
Метод оптимизации Ньютона (Newton's optimization method) позволяет ускорить метод градиентного спуска за счёт использования информации не только о градиенте, но и о матрице вторых производных, называемой матрицей Гессе (Hessian):
Использование вторых производный позволяет ускорить сходимость, поскольку содержит информацию о скорости изменения градиента. Там, где градиент меняется медленно, можно увеличить шаг обучения, а там, где быстро, - замедлить.
Метод Ньютона выглядит следующим образом:
инициализируем настраиваемые веса случайно
пока не выполнено условие остановки:
Как видим, за счёт использования информации о вторых производных удалось избавиться от явной спецификации шага обучения - он настраивается автоматически по скорости изменения градиента домножением на матрицу Гессе. Обратим внимание, что домножение на матрицу подстраивает скорость изменения вдоль каждой оси, используя градиенты вдоль всех осей.
Геометричес ки метод Ньютона в каждой точке строит параболу (в многомерном пространстве - параболоид), после чего смещает оценку весов в точку минимума этой параболы:
Детально об условиях сходимости метода Ньютона можно прочитать здесь.
Достоинства и недостатки метода
Метод Ньютона обладает более высокой скоростью сходимости, чем метод градиентного спуска. В частности, он находит минимум квадратичного функционала всего лишь за одну итерацию. Однако практическому применению этого метода в машинному обучении мешает:
-
необходимость хранить в памяти матрицу Гессе, размера , а обычно велико при большом числе признаков и при использовании таких перепараметризованных моделей, как нейросети;
-
необходимость обращать матрицу Гессе на каждой итерации, что имеет вычислительную сложность .
Более детально о проблемах применения метода Ньютона в машинном обучении можно прочитать здесь. При практическом использовании оптимизации в многомерных пространствах используют квазиньютоновские методы, основанные на вычислительно эффективной аппроксимации работы метода Ньютона.
Обоснование метода Ньютона
Рассмотрим минимизацию дважды дифференцируемой функции потерь
Пусть
Тогда
Разложение Тейлора относительно в точке :
откуда
Получаем итоговое правило обновления весов, чтобы (приближённо!) переместиться в точку минимума:
При минимизации квадратичной функции погрешности , её квадратичная аппроксимация будет точной, поэтому метод Ньютона сойдётся за один шаг.