Перейти к основному содержимому

Общий вид прогнозирующих функций

Регрессия в общем виде

Регрессионная зависимость (в которой откликом является вещественное число) в общем виде записывается в виде некоторой функции, параметризованной вектором параметров w\mathbf{w}

y^=fw(x)\hat{y}=f_{\mathbf{w}}(\mathbf{x})

Многоклассовый классификатор в общем виде

В многоклассовой классификации отклик принимает одно из C дискретных значений

y{1,2,....C}y \in \{1,2,....C\}

Соответственно, каждый многоклассовый классификатор определяет внутри себя CC дискриминантных функций (discriminant functions) или функций рейтинга класса gc(x)g_c(\mathbf{x}), c=1,2,...Cc=1,2,...C - свою для каждого класса. По смыслу дискриминантная функция gc(x)g_c(\mathbf{x}) определяет, насколько хорошо объект x\mathbf{x} подходит под класс cc.

В качестве прогноза классификатор выдаёт класс, обладающий максимальным рейтингом:

y^=arg maxcgc(x)\hat{y}=\argmax_c g_c(\mathbf{x})
Пусть прогнозы классификатора определены в каждой точке x\mathbf{x}. Однозначно ли по классификатору определяются его дискриминантные функции?

Нет, не однозначно. Например, мы можем прибавить или вычесть любую константу одновременно из всех дискриминантных функций, и на прогноз это не окажет никакого влияния: максимум будут достигаться на том же самом классе.

На самом деле дискриминантные функции определены даже с точностью до монотонно возрастающего преобразования. Например, мы можем одновременно возвести в куб или экспоненцировать все дискриминантные функции, и это не окажет влияния на прогноз класса.

Каким уравнением задаётся граница между i-м и j-м классом?

Граница между i-м и j-м классом - это множество всех таких объектов, для которых рейтинг для i-го класса совпадает с рейтингом для j-го класса, т.е. это множество точек:

{x:gi(x)=gj(x)}\{\mathbf{x}: g_i(\mathbf{x})=g_j(\mathbf{x})\}

Бинарный классификатор в общем виде

В бинарной классификации возможных классов всего два, один из которых называется положительным, а другой отрицательным:

y{+1,1}y\in \{+1,-1\}

Прогноз строится по формуле

y^=arg maxc{+1,1}gc(x)=sign(g+1(x)g1(x))=sign(g(x)),\hat{y}=\argmax_{c\in\{+1,-1\}}g_c(\mathbf{x})=\text{sign}(g_{+1}(\mathbf{x})-g_{-1}(\mathbf{x}))=\text{sign}(g(\mathbf{x})),

где g(x)=g+1(x)g1(x)g(\mathbf{x})=g_{+1}(\mathbf{x})-g_{-1}(\mathbf{x}) - относительная дискриминантная функция, по смыслу определяющая, насколько положительный класс лучше подходит для объекта x\mathbf{x}, чем отрицательный, а функция знака возвращает знак аргумента:

sign(u)={+1если u>01если u<0\text{sign}(u)=\begin{cases} +1 &\text{если } u>0 \\ -1 &\text{если } u<0 \end{cases}

При u=0u=0 функция знака не определена, и её можно доопределить возвращать либо +1, либо -1.