Выходы нейросети и функции потерь

В этом разделе обсудим, что будет представлять собой выходной слой (output layer) нейросети для задач регрессии и классификации.

Истинный отклик будем обозначать $y$ , который по вектору признаков $x$ предсказывается нейросетевым преобразованием $f(x)$ , зависящим от вектора весов $w$ .

Одномерная регрессия

В задаче регрессии требуется предсказать одно число (скаляр) $y$ . Соответственно, у нейросети будет один нейрон на выходном слое.

Если значение прогноза может быть любым, то на выходном слое используется тождественная активация.
Если предсказывается неотрицательное значение, то к выходу применяется активация ReLU.
Если предсказывается положительное значение, то используется активация SoftPlus.

При прогнозе, который должен принимать значения внутри отрезка $[-1,+1]$ , используется активация tangh или аналоги: SoftSign и hard-tangh.

Что нужно дополнительно сделать, если целевая величина

y\in[a,b]

Нужно перемасштабировать выход нейросети из отрезка $[-1,1]$ в отрезок $[a,b]$ :

f(\mathbf{x})\longrightarrow a+(b-a)\frac{f(\mathbf{x})+1}{2}

В качестве функции потерь, по которой мы будем настраивать веса, можно использовать любую дифференцируемую функцию, поскольку нейросети настраиваются градиентными методами оптимизации, вычисляющими градиент этой функции по весам $\nabla_w \mathcal{L}(f_w(x),y)$ .

Например, можно взять квадрат ошибки:

\mathcal{L}(f(\mathbf{x}),y)=(f(\mathbf{x})-y)^2

или модуль ошибки:

\mathcal{L}(f(\mathbf{x}),y)=|f(\mathbf{x})-y|

Последняя функция не дифференцируема в нуле, однако это не будет являться проблемой в общем случае, когда $f(\mathbf{x})\ne y$ .

Для набора объектов минимизируется среднее значение этих функций потерь по объектам выборки.

Среднее по квадратам отклонений называется mean squared error или MSE-оценкой.
Среднее по модулям отклонений называется mean absolute error или MAE-оценкой.

Векторная регрессия

Если требуется решить задачу векторной регрессии, то есть предсказывать не одно вещественное число, а сразу вектор $\mathbf{y}\in\mathbb{R}^K$ , то нужно задать архитектуру сети так, чтобы у неё было $K$ выходов.

Чем это лучше, чем делать K независимых прогнозов различными нейросетями для вектора из K откликов?

Если прогнозируемые величины связаны, например, когда предсказываем цены набора акций на следующий день (которые зависят от общих макроэкономических показателей), то эффективнее прогнозировать их одной нейросетью с K выходами:

на этапе обучения это приведёт к переиспользованию промежуточных признаков (активаций внутренних слоёв), в результате чего промежуточные признаки настроятся лучше, и модель будет работать точнее;
это вычислительно эффективнее, поскольку не придётся перевычислять всю последовательность промежуточных признаков много раз для каждой отдельной модели.

Аналогично одномерной регрессии, для настройки весов можно использовать любую дифференцируемую функцию, например, квадрат $L_2$ нормы расхождения:

\mathcal{L}(f(\mathbf{x}),\mathbf{y})=||f(\mathbf{x})-\mathbf{y}||^2_2

либо $L_1$ норму расхождения между прогнозом и фактическим значением:

\mathcal{L}(f(\mathbf{x}),\mathbf{y})=||f(\mathbf{x})-\mathbf{y}||_1

Для набора объектов также минимизируется среднее значение этих функций потерь по объектам выборки.

Бинарная классификация

Для бинарной классификации $y\in\{+1,-1\}$ выходной слой содержит один выход с сигмоидной функцией активации, которая принимает значения на интервале $(0,1)$ , а её выход интерпретируется как вероятность положительного класса:

f(\mathbf{x})=p(y=+1|\mathbf{x})

Вероятность отрицательного класса считается как

p(y=-1|\mathbf{x})=1-p(y=+1|\mathbf{x})=1-f(\mathbf{x})

Настройка архитектуры производится методом максимального правдоподобия (максимизируются модельные вероятности пронаблюдать фактические отклики в обучающей выборке):

P(y_1,...y_N|\mathbf{x}_1,...\mathbf{x}_N)=\prod_{n=1}^N p(y_n|\mathbf{x}_n)\to\max_\mathbf{w}, \tag{1}

где $N$ - число объектов выборки, а вероятность всех откликов факторизуется (представляется в виде произведения вероятностей) при предположении, что наблюдения отдельных объектов независимы (iid assumption).

Максимизация (1) численно неудобна, поскольку приходится перемножать много малых чисел. Из-за ограничений в точности вычисления быстро сходятся к машинному нулю. Поэтому на практике максимизируют логарифм правдоподобия:

\ln P(y_1,...y_N|\mathbf{x}_1,...\mathbf{x}_N)=\sum_{n=1}^N \ln p(y_n|\mathbf{x}_n)\to\max_\mathbf{w} \tag{2}

Поскольку в машинном и глубоком обучении принято не максимизировать выигрыш, а минимизировать функцию потерь, то задачу (2) эквивалентно переписывают следующим образом:

-\ln P(y_1,...y_N|\mathbf{x}_1,...\mathbf{x}_N)=-\sum_{n=1}^N \ln p(y_n|\mathbf{x}_n)\to\min_\mathbf{w}, \tag{3}

при этом чаще минимизируют не сумму, а среднее значение минус логарифмов вероятностей.

Почему неважно, минимизировать сумму или среднее?

Если интересует оптимальное значение весов $\hat{w}$ , то минимизируемый критерий $L(\mathbf{w})$ можно домножать на любую положительную константу $\alpha>0$ (в частности, $\alpha=1/N$ ) - всё равно минимум будет достигаться в той же точке $\hat{\mathbf{w}}$ .

Более того, к минимизируемому критерию можно применять любую монотонно возрастающую функцию $G:\, L(\mathbf{w})\to G(L(\mathbf{w}))$ , чем мы и пользовались, когда заменили максимизацию вероятностей в (1) максимизацией логарифма вероятностей в (2). Это не окажет влияния на оптимальные веса $\hat{\mathbf{w}}$ , хотя, конечно, повлияет на само значение критерия. Но в настройке нейросетей нас интересует не сам критерий, а только веса, которые его минимизируют.

Кросс-энтропийные потери (бинарный случай)

Функция потерь (3) для одного объекта в случае бинарной классификации (на 2 класса) называется кросс-энтропийной функцией потерь (cross-entropy loss) и записывается как

\begin{aligned} \mathcal{L}(f(\mathbf{x}),y)&=-\ln p(y|\mathbf{x})\\ &=-\mathbb{I}\{y=+1\}\ln f(\mathbf{x})-\mathbb{I}\{y=-1\}\ln (1-f(\mathbf{x})), \end{aligned}

где $\mathbb{I}\{\cdot\}$ - индикатор условия:

\mathbb{I}\{\text{условие}\}=\begin{cases} 1, \text{ если условие выполнено,} \\ 0, \text{ если условие не выполнено.} \end{cases}

Потери для ненормированных рейтингов

Можно настраивать веса нейросети, используя предсказанный ненормированный рейтинг класса, а не его вероятность. В этом случае на выходном слое действует тождественная активация, а сама нейросеть настраивается, используя одну из функций потерь, штрафующих неправильный рейтинг, например, hinge:

\mathcal{L}(f(\mathbf{x}),y) = \max\{0;\, \alpha-yf(\mathbf{x})\},

где $\alpha>0$ - гиперпараметр, обычно равный 1.

Многоклассовая классификация

В многоклассовой классификации отклик принимает одно из $C$ дискретных значений: $y\in\{1,2,...C\}$ . В этом случае на выходном слое нейросети создают $C$ выходов $f_1(\mathbf{x}),....f_C(\mathbf{x})$ , вычисляющих рейтинги классов. К этим выходам применяют SoftMax-преобразование, с которым мы уже встречались в логистической регрессии, для того, чтобы получить вероятности классов. Напомним его.

SoftMax-преобразование

SoftMax-преобразование переводит $C$ ненормированных рейтингов классов в $C$ вероятностей соответствующих классов по формулам:

\begin{aligned} & p(y=1|\mathbf{x}) = \frac{e^{f_1(\mathbf{x})/\tau}}{\sum_{c=1}^C e^{f_c(\mathbf{x})/\tau}}, \\ & p(y=2|\mathbf{x}) = \frac{e^{f_2(\mathbf{x})/\tau}}{\sum_{c=1}^C e^{f_c(\mathbf{x})/\tau}}, \\ & \qquad \cdots \; \\ & p(y=C|\mathbf{x}) = \frac{e^{f_C(\mathbf{x})/\tau}}{\sum_{c=1}^C e^{f_c(\mathbf{x})/\tau}}, \\ \end{aligned}

где гиперпараметр температуры $\tau>0$ управляет контрастностью вероятностей (чем он выше, тем вероятности будут ближе к равномерному распределению). Его обычно полагают равным единице.

Почему можно брать

\tau=1

Параметр $\tau$ отвечает за общий масштаб аргументов экспонент, который и так автоматически настраивается, причём независимо для каждого рейтинга за счёт настройки весов последнего слоя нейросети.

От какого вида преобразований

f_1(\mathbf{x}), ... , f_C(\mathbf{x})

SoftMax-вероятности не меняются?

Формулы расчёта вероятностей через SoftMax инварианты к сдвигу на общую функцию $g(x)$ :

f_1(\mathbf{x}), ... , f_C(\mathbf{x}) \longrightarrow f_1(\mathbf{x})+g(\mathbf{x}), .... , f_C(\mathbf{x})+g(\mathbf{x})

Избавиться от этой неоднозначности можно введя регуляризатор, штрафующий абсолютные величины $f_1(\mathbf{x}), ... , f_C(\mathbf{x})$ , либо всегда полагая рейтинг одного из классов тождественно равным нулю. Это не скажется на выразительной способности модели.

Кросс-энтропийные потери (многоклассовые)

Как только получены вероятности классов, производить настройку нейросети можно тем же методом максимального правдоподобия, как и в случае бинарной классификации. Функция потерь для отдельного объекта также называется кросс-энтропийной функцией потерь и будет вычисляться по формуле:

\begin{aligned} \mathcal{L}(f(\mathbf{x}),y)&=-\ln p(y|\mathbf{x})\\ &=-\sum_{c=1}^C\mathbb{I}\{y=c\}\ln f_c(\mathbf{x}) \end{aligned}

Потери для ненормированных рейтингов

Как и в бинарном случае, допускается настраивать веса нейросети, используя предсказанные рейтинги классов, а не их вероятности (после SoftMax). В этом случае на выходном слое действуют тождественные активации, но необходимо выбрать обобщение функции потерь от рейтингов на многоклассовый случай.

Примеры многоклассового обобщения функции потерь hinge:

\begin{aligned} \text{hinge}_{1}(\mathbf{x},y)&=\left[\max_{c\ne y}f_{c}\left(\mathbf{x}\right)+\alpha-f_{y}\left(\mathbf{x}\right)\right]_{+} \\ \text{hinge}_{2}(\mathbf{x},y)&=\sum_{c\ne y}\left[f_{c}\left(\mathbf{x}\right)+\alpha-f_{y}\left(\mathbf{x}\right)\right]_{+} \end{aligned}

где $\alpha>0$ - гиперпараметр, а $[u]_+=\max\{u;0\}$ - оператор положительной срезки.

Выходы нейросети и функции потерь

Одномерная регрессия​

Векторная регрессия​

Бинарная классификация​

Кросс-энтропийные потери (бинарный случай)​

Потери для ненормированных рейтингов​

Многоклассовая классификация​

SoftMax-преобразование​

Кросс-энтропийные потери (многоклассовые)​

Потери для ненормированных рейтингов​

Одномерная регрессия

Векторная регрессия

Бинарная классификация

Кросс-энтропийные потери (бинарный случай)

Потери для ненормированных рейтингов

Многоклассовая классификация

SoftMax-преобразование

Кросс-энтропийные потери (многоклассовые)

Потери для ненормированных рейтингов