Базовые меры качества многоклассовой классификации
Ранее мы уже рассматривали оценку качества регрессионных прогнозов, когда целевой отклик - вещественное число: . Теперь рассмотрим оценку качества прогнозов в задаче классификации, в которой целевая величина принимает одно из дискретных величин:
Напомним, что качество классификации необходимо оценивать не на обучающей выборке (на которой настраивались параметры модели), а на отдельной валидационной, иначе мы в большинстве случаев полу чим слишком оптимистичную оценку (лучше, чем на самом деле). Если же валидационная выборка также использовалась для настройки гиперпараметров, то для оценки качества потребуется отдельная дополнительная валидационная выборка, которую настроенная модель увидит в первый раз. Только на такой выборке мы сможем реалистично оценить качество прогнозов, которое не будет смещено процедурой подбора по ней параметров и гиперпараметров.
Далее будут приведены различные стандартные меры оценки качества классификации. При этом важно держать в голове конечную меру качества и её связь со стандартными мерами, рассматриваемыми далее.
Точность и частота ошибок
Самой простой и популярной мерой качества является точность классификации (accuracy), которая измеряет долю верных предсказаний:
Также можно вычислять частоту ошибок (error rate) как долю неверных предсказаний:
Матрица ошибок
Точность и частота ошибок дают агрегированную картину по всем классам, по которой мы не можем понять, на каких именно классах модель чаще всего ошибалась. Для более детального анализа используется матрица ошибок (confusion matrix) , где показывает количество случаев, когда истинный класс был равен , но при этом был предсказан классом . На диагонали будут находиться корректные классификации, а внедиагональные элементы будут показывать число ошибок разных типов.
Ниже приведён пример этой матрицы для 3х классов:
10 | 3 | 0 | |
0 | 20 | 15 | |
2 | 5 | 30 |
По этой матрице видно, что в целом классификатор хорошо справился с прогнозированием (диагональные элементы относительно большие). А большая часть ошибок классификатора вызвана тем, что объекты 2-го класса он ошибочно классифицирует 3-м классом. Если классов много, то полезно визуализировать матрицу ошибок в виде тепловой карты значений, как на примере ниже:
Как по матрице ошибок вычислить точность классификации (accuracy)?
Для расчёта точности нужно просуммировать все диагональные элементы (общее число верных классификаций) и разделить его на сумму всех элементов матрицы (равную общему числу объектов выборки).
Матрица цен
На практике чаще всего ошибки неравноценны между собой. Например, при классификации электронных писем на "важные", "рассылки" и "спам" не так страшно принять спам за важное письмо (и его оставить), как принять важное письмо за спам (и его удалить). Цена ошибки при классификации рассылок меньше, чем при классификации важных писем. Поэтому определяется понятие матрицы ошибок , где показывает штраф за классификацию объекта -го класса -м классом. Диагональные элементы матрицы полагаются равными нулю, поскольку они соответствуют корректным классификациям. Используя матрицу цен, можно вычислять средний штраф (average cost) при классификации всей выборки: