Специальные меры качества для бинарной классификации
В случае бинарной классификации классы называются положительными и отрицательными . Положительным классом обычно обозначают более редкий целевой класс, а отрицательным - более частый неосновной. Например, при распознавании определённой болезни пациентов по симптомам, положительным классом будет наличие заболевания, а отрицательным - отсутствие. Матрица ошибок будет размера и каждый элемент этой матрицы имеет своё название:
TP (true positives) | FN (false negatives) | |
FP (false positives) | TN (true negatives) |
Второе слово в названии отвечает за прогноз, а первое - за его корректность. Например, ложно-положительные объекты (FP штук) - это объекты, ошибочно предсказанные как положительные, в то время как истинный класс был отрицательный. А ложно-отрицательные объекты (FN) были предсказаны как отрицательные, в то время как на самом деле они принадлежали положительному классу.
Как по значениям TP,TN,FP, FN вычислить точность и частоту ошибок классификации?
Меры качества для несбалансированных классов
Точность и полнота
В случае несбалансированных классов (unbalanced classes), когда положительный класс встречается существенно реже, чем отрицательный, по этим мерам сложно судить об адекватности модели. Например, если положительный класс встречается в 1% случаев, а отрицательный - в оставшихся 99%, то константный прогноз, всегда назначающий отрицательный класс, будет показывать точность 99%, а частоту ошибок - всего 1%. Однако это никак не будет свидетельствовать об адекватности модели, поскольку она даже не пытается выделить положительный класс. Поэтому для таких ситуаций используются специальные меры качества - точность (precision, не путать с accuracy!) и полнота (recall):
где мы использовали обозначения:
-
- общее число положительный объектов.
-
- общее число объектов, предсказанных как положительные.
Precision показывает долю верно-положительных объектов среди всех объектов, предсказанных как положительные. Например, при классификации болезни - это доля действительно больных пациентов среди всех предсказанных как больные. Precision важен, если мы хотим минимизировать число ложных срабатываний классификатора (предсказаний болезни для здоровых).
Recall показывает долю верно-положительных объектов среди всех объектов, в действительности принадлежащих положительному классу. В примере выше recall важен, если мы хотим обнаружить всех больных пациентов, пусть и с некоторой долей ложных срабатываний.
Таким образом, precision и recall преследуют во многом противоречивые цели.
F-мера
На практике важен и precision, и recall, поэтому считают их среднее гармоническое, называемое F-мерой (F-measure, -score):