Оценка качества детекции
Детекции деляться на следующие виды:
-
верно положительные (True Positive): модель корректно распознала класс объекта и выделила его рамкой, сильно пересекающейся с истинной рамкой ().
-
ложно положительные (False Positive): модель выделила рамкой объект, которого на самом деле нет либо выделила присутствующий объект, но неточно ().
-
ложно отрицательные (False Negative): модель не распознала реально присутствующий объект.
Случаев верно отрицательных детекций (True Negative), как в бинарной классификации, в детекции не рассматривается (поскольку, строго говоря, им соответствуют все случаи, когда модель корректно не сработала на отсутствие объектов; но в задаче детекции нас интересует только выделение присутствующих объектов)
Количество верно положительных детекций назыа
Далее, для конкретного класса (например, "машина") считаются меры Precision и Recall, как в бинарной классификации:
Для класса "машины"
-
мера Precision показывает, как часто среди детекций машин действительно оказывались корректно выделенные машины.
-
Мера Recall показывает, какую долю машин из реально присутствующих детектор сумел корректно выделить.
Как и в бинарной классификации, можно вычислять F-меру, агрегирующую Precision и Recall (через среднее гармоническое):
Важно понимать, что меры Precision и Recall вычисляются для фиксированного значения порога на похожесть рамочных выделений . Они будут некоторыми функциями от этого порога:
Как будут изменяться Precision и Recall при увеличении ?
При увеличении детектор будет осторожнее выделять объекты - только там, где он больше в них уверен. Соответственно Precision будет увеличиваться ценой того, что Recall будет становиться ниже.
Варьируя от 0 до 1, можно построить график зависимости P(R)=Precision(Recall), который называется графиком зависимости точности от полноты (precision-recall curve).
Пример этого графика приведён ниже (синяя кривая, источник):
Как видим, график имеет пилообразную форму, поэтому его сглаживают, заменяя значение precision P для каждого значения recall R на максимальный precision при всевозможных значениях recall выше порога:
Точность называют интерполированной точностью (interpolated precision) и её зависимость от Recall показана выше красной кривой.
Для оценки качества детектора при всевозможных порогах вычисляют меру Average Precision (AP) как площадь под графиком интерполированной точности:
На практике для этого разбивают значения Recall на равномерно распределённые значения (обычно ):
Если усреднять по каждому из классов в многоклассовой классификации, то получим величину Mean Average Precision (mAP):