Обрезка градиента
Решаемая проблема
Нейросети моделируют сложные нелинейные зависимости, вследствие чего рельеф функции потерь может быть сложным и подверженным резким изменениям, как показано на рисунке [1]:
Поскольку при итеративной настройке сети веса сдвигаются в сторону антиградиента (градиента функции потерь со знаком минус), а сам градиент ведёт себя нестабильно для функции с резкими изменениями, это приводит к нестабильному обучению, делая сходимость более неустойчивой и долгой.