Каждой точке на ROC-кривой будет соответствовать классификатор y^(x)=sign(g(x)−α) со своим выбором α. Агрегированной мерой этого семейства классификаторов (при всевозможных значениях α) выступает площадь под ROC-кривой (area under curve, AUC). Как следует из алгоритма построения ROC-кривой, идеальной ROC-кривой будет ступенчатая функция, идущая в осях (FPR,TPR) из (0,0) в (0,1), а затем из (0,1) в (1,1). Ей будет соответствовать наилучшее значение AUC, равное единице. Классификатор в этом случае идеально упорядочит объекты так, что все объекты с низки ми g(x) будут принадлежать отрицательному классу, а все объекты с высоким g(x) будут принадлежать положительному классу, как показано на рисунке:
Для безошибочной классификации достаточно лишь выбрать порог α, разделяющий классы.
Мера AUC оценивает, насколько сильно ROC-кривая выпукла вверх, что соответствует качеству упорядочивания объектов вдоль оси g(x), когда объектам с более низкими g(x) соответствуют отрицательные классы, а с более высокими g(x) - положительные классы. Это утверждение можно сформулировать более формально.
Предположим для простоты, что каждому объекту соответствует своё уникальное значение относительной дискриминантной функции g(x).
Рассмотрим пару объектов (xi,yi=−1) и (xj,yj=+1) отрицательного и положительного классов. Такую пару будем называть:
верно упорядоченной, если g(xi)<g(xj);
неверно упорядоченной, если g(xi)>g(xj).
Если N+,N− - общее число объектов положительного и отрицательного класса, то общее количество пар объектов отрицательного и положительного классов будет N+⋅N−.
Справедливо следующее утверждение.
Площадь под ROC-кривой (AUC) равна доле верно упорядоченных пар объектов выборки:
AUC=N−⋅N+∑(i,j):yi=−1,yj=1I[g(xj)>g(xi)]
Доказательство: пусть x(1),...x(N) - упорядоченные объекты по рейтингу:
g(x(1))<g(x(2))<...<g(x(N))
Каждой точке на ROC-кривой будет соответствовать классификатор:
Иными словами, мы получили, что площадь под ROC-кривой в точности соответствует доле верно упорядоченных пар среди всех пар объектов, первый из которых отрицательного класса, а второй - положительного. Таким образом, мера AUC оценивает качество упорядочивания объектов вдоль значений относительной дискриминантной функции g(x).
Оптимизация AUC напрямую
Мера AUC зависит от индикаторных функций, поэтому является кусочно-постоянной, и её нельзя оптимизировать градиентными методами оптимизации:
AUC=N+⋅N−∑(i,j):yi=−1,yj=1I[g(xj)>g(xi)]
Но мы можем приблизить каждый индикатор I[g(xj)>g(xi)] сигмоидой σ(β(g(xj)−g(xi))), где σ(u)=1+e−u1 - сигмоидная функция (sigmoid), а β>0 - гиперпараметр, выбираемый пользователем. Чем β выше, тем точнее будет аппроксимация.