Прогнозы на типичных и нетипичных объектах
Перед финализацией модели полезно рассмотреть её обработку типичных объектов (прототипов, prototypes), лежащих в центрах плотно заполненных областей признакового пространства. А также изучить обработку нетипичных объектов (критиков, criticisms), лежащих, наоборот, в слабо заполненных областях пространства признаков.
Множество прототипов нужно выбирать минимально достаточным, но так, чтобы прототипы репрезентативно характеризовали распределение данных, т.е. располагались далеко друг от друга. То же относится и к критикам, которые должны ёмко описывать нетипичные ситуации.
Пример выделения прототипов и критиков для двумерных данных показан ниже (источник):
Примеры объектов-прототипов и критиков для задачи определения породы собаки по фото и распознавания рукописных цифр и показаны на следующем изображении (источник):
Видно, что прототипы первой задачи представляют собой классические фото собак крупным планом. Критики же представляют нетипичные случаи, где собак на фото может быть много, на собаку что-то одето и т.д.
Аналогично и во второй задаче - прототипы представляют собой классические и разборчивые написания цифр. На изображениях-критиках цифры написаны неразборчиво, слишком жирно или вообще не представляют собой цифру.
Поскольку число прототипов и критиков невелико, но репрезентативно, анализ прогнозов модели на них сразу даст комплексное представление о качестве её работы в типичных и нетипичных случаях.
Прототипы можно найти как центры кластеров при кластеризации методом К-медоид (аналогичному К-средних, только центрами могут выступать лишь объекты обучающей выборки), а критиками - объекты, далёкие от кластеров, их центров и друг от друга. Есть и более продвинутая процедура выделения прототипов и критиков - MMD-critic.