Мониторинг сходимости
Для анализа сходимости метода стохастического градиентного спуска важно смотреть на динамику потерь на каждой итерации алгоритма. Особенно это важно при долгой и трудоёмкой настройке нейросетей, чтобы на ранней стадии оптимизации увидеть некорректную настройку определённых параметров. Поскольку в стохастическом градиентном спуске сдвиг весов производится на антиградиент по случайному минибатчу объектов, то и величина этого сдвига будет подвержена случайным колебаниям, как в примере ниже:
Для большей наглядности, нам хотелось бы отслеживать сглаженную версию этой динамики, показанную зелёной кривой. Для этого существуют два подхода - скользящее среднее и экспоненциальное сглаживание. Оба метода на вход принимают зашумлённый временной ряд (в нашем случае - потерь на объектах минибатча), а на выходе выдают его сглаженную версию , причем сглаживание осуществляется динамически в каждый момент времени.
Скользящее среднее
Идея скользящего среднего заключается в выдаче усреднения по последним наблюдениям: