Отступ классификации
Введение
В регрессии есть понятие величины ошибки, характеризующей степень того, насколько мы ошиблись в прогнозе:
Соответственно, мы определяем функцию потерь от этой ошибки, характеризующей штраф за то или иное отклонение:
задача | название | формула |
---|---|---|
регрессия | квадрат ошибки (squared error) | |
регрессия | модуль ошибки (absolute error) | |
регрессия | -нечувствительная, |
Например, -нечувствительные потери штрафуют отклонение пропорционально величине отклонения за вычетом , и вообще не штрафуют, если отклонение оказалось по абсолютной величине меньше . Это полезно в приложениях, где существует некоторый допустимый уровень ошибки.
Но как измерять степень рассогласованности классификационного прогноза с истинным значением? Можно смотреть на индикатор ошибки , однако эта величина принимает всего два дискретных значения: 0, если прогноз верный и 1, если прогноз неверный. Индикатор не позволяет понять, насколько уверенно модель сделала верный подход или насколько она сомневалась, когда сделала неверный. Для этого используется понятие отступа (margin).
Отступ для многоклассовой классификации
Отступ (margin) - непрерывная величина, измеряющая качество классификации по формуле:
где - рейтинг верного класса, а - максимальный рейтинг среди всех неверных.
Таким образом, отступ по смыслу измеряет, насколько с большим зазором объект был отнесен к правильному классу по сравнению с неправильными.
Отступ по смыслу измеряет насколько модель уверенно назначала верный класс по сравнению со всеми неверными. Чем отступ выше, тем модель была более уверена в правильном прогнозе. Если , то модель делает верный прогноз, а если , то неверный.
Если применить модель ко всем объектам обучающей выборки, посчитать на них отступ и отсортировать по нему, то получим примерно такой график:
По величине отступа объекты делятся на следующие категории:
-
Надежно классифицированные объекты (обозначены светло-зелёным): отступ положительный и заметно больше нуля. При хорошей настройке модели большинство объектов будут принадлежать этой категории.
-
Объекты-эталоны (обозначены насыщенным зелёным): отступ положительный и большой. Объекты, лежащие в глубине своего класса и описывающие характерных представителей своего класса.
-
Пограничные объекты (обозначены оранжевым): отступ несильно отличается от нуля, объекты лежат на границе классов, и на таких объектах обычно дос тигается максимальное число ошибок.
-
Объекты-выбросы (обозначены красным): отступ отрицательный и большой по абсолютной величине. Объекты лежат в глубине чужого класса. На них модель уверена, что класс один, хотя на самом деле он совсем другой.
Для повышения точности настройки модели полезно отфильтровать объекты-выбросы, чтобы они не мешали настройке модели. Настраивать модель нужно в основном на эталонных и пограничных объектах, поскольку надежно классифицированные объекты и так хорошо классифицируются и привносят мало информации в форму поверхности, разделяющей классы. Это может быть использовано при упрощении обучающей выборки и приоретизации обхода объектов в численных методах настройки параметров модели.
Отступ для бинарной классификации
В случае бинарной классификации формула для отступа упрощает ся:
где, как и раньше, определяет относительную дискриминантную функцию.