Меры оценки качества регрессионных прогнозов
В задаче регрессии строится прогноз вещественной целевой переменной .
О качестве регрессионных прогнозов судят по ошибкам модели на объектах отдельной валидационной выборки.
Напомним, что оценивать качество работы модели необходимо на данных, которые модель увидела впервые, а не на тех данных, на которых настраивались параметры модели. Иначе мы получим слишком оптимистичные ошибки.
Причём данные для оценки не могут быть в валидационной выборке, если она использовалась для подбора гиперпараметров, поскольку в этом случае модель уже использовала эти данные! Для несмещённой оценки качества в этом случае необходима третья независимая выборка.
Ниже будут приведены популярные функции оценки качества регрессионных прогнозов. Но важно помнить, что итоговый выбор меры качества должен как можно точнее оценивать реальные потери заказчика от ошибок прогнозирования (например, в рублях), поскольку именно ради минимизации этих потерь модель машинного обучения и внедряется!
Mean squared error (MSE)
Среднеквадратичная ошибка (mean squared error, MSE) используется как для настройки параметров модели, так и для оценки её качества на новых данных, и считается по формуле: