Оценка качества прогнозов
Мы можем использовать для прогнозирования разные модели или одну и ту же модель, но при разных значениях гиперпараметров. Также для обработки варьируют весь конвейер обработки данных (пайплайн, pipeline), включающий как предобработку данных (заполнение пропущенных значений, отсев аномальных наблюдений, отбор и кодирование признаков), так и итоговое построение прогнозов. Важно уметь оценивать качество модели, чтобы подобрать самую точную модель и её наилучшую конфигурацию, а также знать, на какое качество работы мы можем рассчитывать на новых данных.
Как можно было бы оценить качество прогнозов модели? Как мы выяснили раньше, средние потери на обучающих объектах представляют собой необъективную и слишком оптимистическую оценку потерь модели на новых объектах, занижая потери, поскольку её параметры подбираются так, чтобы именно на обучающих объектах модель работала хорошо. Для более объективной оценки модели есть два подхода - использование отложенной валидационной выборки и кросс-валидация.
Валидационная выборка
В этом подходе предлагается разбить размеченную выборку случайно на две подвыборки:
-
обучающую (training set, ~80% объектов), на которой настраивать параметры модели .
-
валидационную (validation set, ~20% объектов), на которой оценивать её качество.

Таким образом, множество индексов всех объектов случайным образом разбивается на два подмножества:
-
- индексы объектов обучающей выборки;
-
- индексы объектов валидационной выборки.
Настройка параметров производится по обучающим объектам ( - число элементов в множестве ):
При желании можно также производить настройку с регуляризацией.
Оценка качества прогнозов производится по объектам валидационной выборки:
В этом случае регуляризация не используется, т.к. нас интересует только точность итоговых прогнозов.
Данный подход также называется валидацией на отложенных данных (hold-out validation).
После того, как мы оценили качество модели на валидационной выборке, итоговая модель обучается на всех размеченных данных (и на обучающей, и на валидационной выборке). Так мы повысим качество итоговой модели, настраивая её, используя всю доступную информацию.
Кросс-валидация
Недостатком отложенной валидационной выборки является то, что приходится обучать модель на подмножестве данных, а не на всех, поскольку часть данных резервируется на оценку качества (валидационную выборку). Валидационная выборка должна занимать существенную пропорцию от всех данных, чтобы репрезентативно представлять разнообразие новых наблюдений в будущем. Из-за этого тестируемая модель будет в общем получаться хуже, чем итоговая модель, которая обучается на всех данных.
Кросс-валидация (перекрёстный контроль, кросс-проверка, cross-validation) - другой подход, который позволяет задействовать больше размеченных объектов для обучения, и все размеченные объекты для тестирования качества прогнозов, что обеспечивает более точное оценивание качества прогнозов.
Для этого размеченная выборка делится на примерно равных групп объектов, называемых блоками (folds), а подход целиком называется -блоковой кросс-валидацией (K-fold cross-validation).
обычно берется равным от 3 до 8. Дальнейшее наращивание слишком усложняет настройку, но не приводит к существенному улучшению качества оценок.
Далее каждый из этих блоков поочерёдно исключается, а модель настраивается по оставшимся блокам, как показано на рисунке, где строки - это этапы работы алгоритма, а столбцы - блоки объектов, на которые мы разбили обучающую выборку:
После прохода по всем блокам мы получим несмещённые вневыборочные прогнозы для всех объектов, усреднением потерь на которых мы получим итоговую оценку качества.
Преимущества
-
Полученная таким образом оценка будет точнее, чем предыдущий подход, поскольку качество прогнозов будет оценено на всех располагаемых объектах, а не только на валидационной выборке.
-
Также, поскольку каждый раз исключается лишь один из небольших блоков, тестируемая модель обучается на большем объеме данных и получается ближе к итоговой, которую мы обучаем на всей выборке.
-
Поскольку модель в кросс-валидации перенастраивается раз, можно исследовать стабильность п отерь и стабильность настроенных параметров по отдельным блокам, анализируя их стандартные отклонения по блокам. Также можно следить за тем, насколько рассогласованными получаются прогнозы между моделями, обученными на каждой подвыборке, что позволит оценивать уверенность в прогнозах.
Недостатки
Недостатком кросс-валидации является то, что приходится раз перенастраивать модель, в отличие от подхода с отложенной валидационной выборкой, где оцениваемая модель настраивалась лишь один раз.
В частном случае кросс-валидации при модель будет применена к каждому объекту в отдельности. Такой метод называется скользящим контролем (leave-one-out), но применяется только для моделей с очень быстрой настройкой, поскольку требует перенастройки модели раз.
Mетоды оценки качества прогнозов моделей и их программные реализации в вы также можете прочитать в [1].