Контроль качества предсказания вероятностей
Калибровка вероятностей
Подбор преобразования и его параметров , переводящего рейтинг класса его вероятность называется калибровкой вероятностей (probability calibaration). Если классов только два, то в процессе калибровки строят график калибровки (calibration-plot), показанный ниже (источник изображения):
По оси X откладывают предсказанную вероятность положительного класса, а по оси Y - фактическую. Чем получаемая зависимость ближе к диагонали Y=X, тем лучше классификатор предсказывает вероятности. На графике выше видно, например, что метод Naive Bayes недооценивает истинную вероятность, когда предсказывает её малое значение, и, наоборот, переоценивает вероятность, когда предсказывает её большое значение.
Поскольку в обучающей выборке нам даны только истинные классы, а не их вероятности, то для расчета истинных вероятностей множество предсказанных вероятностей разбивают на отрезки, например
В рамках каждого отрезка, вычисляют фактическую вероятность положительного класса как долю объектов, принадлежащих этому классу.
Важно подчеркнуть, что даже если классификатор хорошо предсказывает метки классов, вероятности классов он может предсказывать плохо, например, как на рисунке ниже:
Классификатор верно настроился на то, что для вероятность положительного класса меньше 0.5, и надо предсказывать отрицательный класс. А для положительный класс более вероятен, и нужно предсказывать его. Поэтому точность предсказания меток класса будет высокой, однако вероятности классов предсказываются неверно, поскольку .
Общеупотребительные меры качества классификации, такие как точность (accuracy), частота ошибок (error rate) и др. оценивают только качество предсказания меток классов. Для оценки качества предсказания вероятн остей можно использовать среднее значение логарифма правдоподобия или оценку Бриера.
Чтобы избежать переобучения, нужно, как и для других мер качества, качество предсказания вероятностей оценивать на внешней валидационной выборке, а не обучающей (на которой производилась настройка параметров модели).
Средний логарифм правдоподобия
Наша вероятностная модель сопоставляет каждому наблюдению вероятность пронаблюдать именно такой класс . При предположении, что объекты выборки распределены независимо, вероятность пронаблюдать ответы на всей выборке факторизуется в произведение вероятностей пронаблюдать ответ на каждом объекте выборки:
Чем выше правдоподобие (likelihood), тем больше прогнозы модели согласуются с фактическими наблюдениями, и тем лучше модель прогнозирует вероятности классов. Поскольку произведение большого числа вероятностей будет давать машинный ноль, то на практике анализируют средний логарифм правдоподобия (log-likelihood):
Оценка Бриера
Оценка Бриера представляет собой другой популярный способ оценки качества предсказанных вероятностей с помощью функции потерь Бриера (Brier score), равной средеe норме отклонений вектора предсказанных вероятностей от вектора истинных вероятностей. Пусть - вектор предсказанных вероятностей нашей моделью, а - вектор истинных вероятностей. Например, если для объекта реализуется -й класс, то будет представлять собой вектор из нулей, в котором на -й позиции стоит единица. Тогда оценка Бриера - это средний квадрат нормы отклонения вектора истинных вероятностей от вектора предсказанных вероятностей по всем объектам выборки:
Правдоподобие выборки, логарифм правдоподобия и оценка Бриера измеряют степень ошибки (чем больше, тем хуже) или качество прогноза вероятностей (чем больше, тем лучше)?