Перейти к основному содержимому

Прогнозы на типичных и нетипичных объектах

Перед финализацией модели полезно рассмотреть её обработку типичных объектов (прототипов, prototypes), лежащих в центрах плотно заполненных областей признакового пространства. А также изучить обработку нетипичных объектов (критиков, criticisms), лежащих, наоборот, в слабо заполненных областях пространства признаков.

Множество прототипов нужно выбирать минимально достаточным, но так, чтобы прототипы репрезентативно характеризовали распределение данных, т.е. располагались далеко друг от друга. То же относится и к критикам, которые должны ёмко описывать нетипичные ситуации.

Пример выделения прототипов и критиков для двумерных данных показан ниже (источник):

prototypes-criticisms.png

Примеры объектов-прототипов и критиков для задачи определения породы собаки по фото и распознавания рукописных цифр и показаны на следующем изображении (источник):

prototypes-criticisms-examples.png

Видно, что прототипы первой задачи представляют собой классические фото собак крупным планом. Критики же представляют нетипичные случаи, где собак на фото может быть много, на собаку что-то одето и т.д.

Аналогично и во второй задаче - прототипы представляют собой классические и разборчивые написания цифр. На изображениях-критиках цифры написаны неразборчиво, слишком жирно или вообще не представляют собой цифру.

Поскольку число прототипов и критиков невелико, но репрезентативно, анализ прогнозов модели на них сразу даст комплексное представление о качестве её работы в типичных и нетипичных случаях.

Прототипы можно найти как центры кластеров при кластеризации методом К-медоид (аналогичному К-средних, только центрами могут выступать лишь объекты обучающей выборки), а критиками - объекты, далёкие от кластеров, их центров и друг от друга. Есть и более продвинутая процедура выделения прототипов и критиков - MMD-critic.