Перейти к основному содержимому

Вопросы для самопроверки

  • Почему веса в градиентных методах оптимизации смещают на антиградиент функции потерь?
  • В чём заключено преимущество метода стохастического градиентного спуска по сравнению с обычным методом градиентного спуска?
  • В чем мотивация использования стохастического градиентного спуска с инерцией? Может ли он сходиться медленнее, чем метод градиентного спуска при неблагоприятном выборе параметра μ\mu?
  • Как гиперпараметр α\alpha влияет на степень экспоненциального сглаживания?
  • Перечислите преимущества и недостатки метода Ньютона по сравнению с методом градиентного спуска. Обоснуйте, почему он найдёт минимум квадратичной функции всего за одну итерацию.