Обобщающая способность модели
После настройки параметров модели на обучающей выборке (training set) , нам бы хотелось оценить, насколько хорошо она будет работать на новых данных - тестовой выборке (test set) , т.е. оценить так называемую обобщающую способность (generalization ability) - способность модели успешно экстраполировать выученные зависимости при обучении. Ведь именн о для этого мы и настраивали модель!
Тут важно помнить, что эмпирический риск на обучающей выборке не будет репрезентативно отражать эмпирический риск на новых данных, и в общем случае мы будем наблюдать, что , поскольку выбиралась так, чтобы минимизировать ошибки именно на обучающих данных , но не новых. Мы лишь надеемся, что новые данные будут распределены примерно так же, как в обучающей выборке.
Чем более сложная (гибкая, с большим числом параметров) у нас модель, тем легче ей по дстроиться под обучающую выборку и тем меньше будет , однако это далеко не всегда будет приводить к снижению ! Например, мы решаем задачу линейной регрессии по одномерному признаку и отклику . Управлять сложностью получаемой модели можно за счет поиска линейной зависимости не только от , но и от квадрата признака , куба признака и так далее до определённой степени . Тогда наша модель будет иметь вид:
и будет моделировать множество всевозможных полиномиальных зависимостей от . Выбирая различные , мы будем управлять сложностью получаемой модели. На рисунке ниже обучающая выборка в осях показана точками, а прогнозы модели при различных показаны пунктирной линией. Видно, что малое (слева) будет приводить к линейной зависимости, которая слишком проста для реальной зависимости в данных, что соответствует недообученной модели (underfitted model), в то время как при высоком (справа) зависимость получается сложнее реальной зависимости и приводит к переобученной модели (overfitted model). Промежуточное приводит к модели, сложность которой примерно соответствует сложности реальных данных.

Более формально понятия недообученных и переобученных моделей будут рассмотрены в отдельном разделе учебника.