Оценка качества прогнозов
Мы можем использовать для прогнозирования разные модели или одну и ту же модель, но при разных значениях гиперпараметров. Также для обработки варьируют весь конвейер обработки данных (пайплайн, pipeline), включающий как предобработку данных (заполнение пропущенных значений, отсев аномальных наблюдений, отбор и кодирование признаков), так и итоговое построение прогнозов. Важно уметь оценивать качество модели, чтобы подобрать самую точную модель и её наилучшую конфигурацию, а также знать, на какое качество работы мы можем рассчитывать на новых данных.
Как можно было бы оценить качество прогнозов модели? Как мы выяснили раньше, средние потери на обучающих объектах представляют собой необъективную и слишком оптимистическую оценку потерь модели на новых объектах, занижая потери, поскольку её параметры подбираются так, чтобы именно на обучающих объектах модель работала хорошо. Для более объективной оценки модели есть два подхода - использование отложенной валидационной выборки и кросс-валидация.
Валидационная выборка
В этом подходе предлагается разбить размеченную выборку случайно на две подвыборки:
-
обучающую (training set, ~80% объектов), на которой настраивать параметры модели .
-
валидационную (validation set, ~20% объектов), на которой оценивать её качество.
Таким образом, множество индексов всех объектов случайным образом разбивается на два подмножества:
-
- индексы объектов обучающей выборки;
-
- индексы объектов валидационной выборки.
Настройка параметров производится по обучающим объектам ( - число элементов в множестве ):