Метод Ньютона
Метод оптимизации Ньютона (Newton's optimization method) позволяет ускорить метод градиентного спуска за счёт использования информации не только о градиенте, но и о матрице вторых производных, называемой матрицей Гессе (Hessian):
Использование вторых производный позволяет ускорить сходимость, поскольку содержит информацию о скорости изменения градиента. Там, где градиент меняется медленно можно увеличить шаг обучения, а там, где быстро - замедлить.
Метод Ньютона выглядит следующим образом:
инициализируем настраиваемые веса случайно
пока не выполнено условие остановки:
Как видим, за счёт использования информации о вторых производных удалось избавиться от явной спецификации шага обучения - он настраивается автоматически по скорости изменения градиента домножением на матрицу Гессе. Обратим внимание, что домножение на матрицу подстраивает скорость изменения вдоль каждой оси, используя градиенты вдоль всех осей.
Геометрическ и метод Ньютона в каждой точке строит параболу (в многомерном пространстве - параболоид), после чего смещает оценку весов в точку минимума этой параболы:
Детально об условиях сходимости метода Ньютона можно прочитать здесь.
Достоинства и недостатки метода
Метод Ньютона обладает более высокой скоростью сходимости, чем метод градиентного спуска. В частности, он находит минимум квадратичного функционала всего лишь за одну итерацию. Однако практическому применению этого метода в машинному обучении мешает:
-
необходимость хранить в памяти матрицу Гессе, размера , а обычно велико при большом числе признаков и при использовании таких перепараметризованных моделей, как нейросети.
-
необходимость обращать матрицу Гессе, на каждой итерации, что имеет вычислительную сложность .
Более детально о проблемах применения метода Ньютона в машинном обучении можно прочитать здесь. При практическом использовании оптимизации в многомерных пространствах используют квазиньютоновские методы, основанные на вычислительно эффективной аппроксимации работы метода Ньютона.
Обоснование метода Ньютона
Рассмотрим минимизацию дважды дифференцируемой функции потерь
Пусть
Тогда
Разложение Тейлора относительно в точке :
откуда
Получаем итоговое правило обновления весов: