Сколько будет настраиваемых параметров у многослойного персептрона с пятью входами, двумя скрытыми слоями с десятью нейронами в каждом и одним нейроном на выходном слое?
Какие функции нелинейности лучше использовать на скрытых слоях нейросети и почему?
Чем отличаются методы pretraining и fine-tuning? Для чего они используются?
Для чего используется батч-нормализация? Как её применение отличается во время обучения и применения модели?
Для чего используется дропаут? Как его применение отличается во время обучения и применения модели?
Какие есть гиперпараметры у методов weight decay и дропаута? Как их увеличение влияет на сложность результирующей модели?
Какое преимущество даёт внесение в модель остаточных блоков (residual blocks)?