Метод градиентного спуска
Идея метода
Метод градиентного спуска (gradient descent) минимизирует функцию потерь, выполняя следующие действия:
инициализируем случайно
пока не выполнено условие остановки:
- гиперпараметр, характеризующий шаг обновления весов (learning rate). Он выбирается небольшой константой.
В качестве условия остановки обычно выбирается условие, что от итерации к итерации функция потерь перестаёт существенно меняться или достигнуто максимальное число итераций.
Поскольку антиградиент показывает локальное направление максимального уменьшения функции, метод градиентного спуска можно уподобить путнику, заблудившемуся ночью в горах, который, пытаясь спуститься вниз как можно быстрее, каждый раз делает шаг в направлении наиболее крутого склона.
Продолжая аналогию с путником, так можно и скатиться с обрыва. Чтобы не улететь, путник использует альпинистское снаряжение, чтобы упасть не больше чем на длину страхующей веревки. Аналогично и в методе градиентного спуска, если рельеф функции потерь резко меняется, часто сдвигаются не больше, чем на заранее заданный порог безопасности, ограничивая норму градиента, на который осуществляют сдвиг: