Почему веса в градиентных методах оптимизации смещают на антиградиент функции потерь?
В чём заключено преимущество метода стохастического градиентного спуска по сравнению с обычным методом градиентного спуска?
В чем мотивация использования стохастического градиентного спуска с инерцией? Может ли он сходиться медленнее, чем метод градиентного спуска при неблагоприятном выборе параметра μ?
Как гиперпараметр α влияет на степень экспоненциального сглаживания?
Перечислите преимущества и недостатки метода Ньютона по сравнению с методом градиентного спуска. Обоснуйте, почему он найдёт минимум квадратичной функции всего за одну итерацию.