Линейная классификация
Напомним из более ранней главы, что задача классификации состоит в предсказании дискретного отклика:
и осуществляется по правилу
где - дискриминантные функции, измеряющие рейтинг класса для объекта .
Линейный многоклассовый классификатор
Линейный многоклассовый классификатор (linear multiclass classifier) - классифика тор, у которого все дискриминантные функции могут быть представлены в виде линейных функций:
Для спецификации линейного классификатора нужно задать смещений и векторов из коэффициентов при каждом признаке . Таким образом, для спецификации достаточно параметров.
Поскольку дискриминантные функции определены с точностью до сдвига на произвольную функцию (докажите!), то можно всегда смещать на , получая, что рейтинг последнего класса будет равен тождественному нулю. И для эквивалентной спецификации линейного классификатора будет достаточно всего параметров.
Граница между -м и -м классом определяется из условия:
Поскольку это линейное уравнение, то границы между парой классов всегда будет линейной гиперплоскостью, а областью отнесения объектов к определённому классу будет выпуклый многогранник как пересечение выделяющих этот класс полуплоскостей относительно каждого из альтернативных классов.
Линейный бинарный классификатор
Линейный бинарный классификатор (linear binary classifier) решает задачу классификации на два класса, называемые положительным и отрицательным:
Как правило, в качестве положительного класса выбирают целевой класс, представляющий интерес и требующий дальнейшей обработки, а в качестве отрицательного - фоновый. Например, при классифи кации, болен ли пациент или здоров, больных относят к положительному классу, а здоровых - к отрицательному. Обычно положительный класс встречается реже, чем отрицательный.
Прогноз для линейного бинарного классификатора строится по правилу:
где мы ввели обозначения:
а функция извлекает знак аргумента:
Величина является относительной дискриминантной функцией или относительным рейтингом. Она характеризует насколько положительный класс лучше подходит для объекта , чем отрицательный.
Геометрическая интерпретация
Расстояние от до гип ерплоскости , задаваемым уравнением
можно посчитать как
Доказательство этого факта можно прочитать в [1].
Обратим внимание, что это расстояние со знаком, т.е. оно может быть как положительным, так и отрицательным, в зависимости от того, с какой именно стороны точка лежит от гиперплоскости.
Из последней формулы видно, что относительная дискриминантная функция пропорционально с коэффициентом расстоянию (со знаком) от точки до разделяющей гиперплоскости.
-
Если она принимает большие по модулю значения, то лежит в глубине того или иного класса, а если малые - то у границы между классами.
-
По знаку дискриминантной функции можно судить о том, с какой именно стороны от разделяющей гиперплоскости оказался объект.
-
Если дискриминантная функция равна нулю, то объект попадает строго на границу между классами.