Перейти к основному содержимому

Модель нейрона

Изначально нейронные сети появились как попытка моделировать работу человеческого мозга, который состоит из нейронов, многие из которых связаны друг с другом аксонами - вытянутыми отростками нервных клеток. Каждый нейрон может перейти в возбуждённое состояние, в этом случае он передаёт по аксонам сигнал другим нейронам, с которыми он связан посредством электро-химического взаимодействия.

В простейшем виде биологический нейрон моделируется преобразованием:

a=h(k=0Kwkak),a=h\left( \sum_{k=0}^K w_{k} a_k \right),

где

  • aa - выход нейрона (что он посылает по аксонам другим нейронам);

  • a01a_0\equiv 1 - нейрон, всегда выдающий константу 1;

  • a1,...aKa_1,...a_K - нейроны, имеющие входящую связь с рассматриваемым нейроном;

  • w0,w1,...wKw_0,w_1,...w_K - веса связей;

    • они показывают, во сколько раз изменяется сигнал, передаваемый нейронами a0,a1,...aKa_0,a_1,...a_K текущему нейрону aa;
  • h()h(\cdot) - некоторая фиксированная функция активации (activation function).

Геометрически это можно представить следующим образом:

Модель нейрона в машинном обучении

В машинном обучении нейрон можно применять как в задаче регрессии, так и в задаче классификации к DD-мерному вектору признаков x=[x1,x2,...xD]x=[x^1,x^2,...x^D].

Обозначения признаков

Напомним, что, в соответствии с обозначениями книги, признаки обозначаются верхним индексом. xix^i - ii-й признак вектора признаков, а xnx_n - nn-й объект обучающей выборки.

В обоих случаях входящими нейронами будут признаки входного вектора xx и константa 11, K=DK=D:

a01,a1=x1,a2=x2...aK=xD;a_0\equiv 1,\,a_1=x^1,\,a_2=x^2\,...a_{K}=x^D;

Таким образом, одиночный нейрон моделирует закономерность

y(x)=h(w0+d=1Dwdxd),y(x)=h\left( w_{0} + \sum_{d=1}^D w_{d} x^d \right),

где мы сделали общепринятое переобозначение w0=wD+1w_0=w_{D+1}, этот параметр называется смещением (bias).

Веса w0,w1,...wDw_0,w_1,...w_{D} представляют собой настраиваемые параметры по данным. В зависимости от того, как выбрать функцию активации, мы сможем решать как задачу регрессии, так и задачу бинарной классификации.

Регрессия

Регрессия получается при выборе h(u)=uh(u)=u. Тогда

y(x)=w0+d=1Dwdxdy(x) = w_{0} + \sum_{d=1}^D w_{d} x^d

Бинарная классификация

Классификация получается при выборе h(u)=σ(u)=1/(1+eu)h(u)=\sigma(u)=1/(1+e^{-u}). Сигмоидная функция σ(u)(0,1)\sigma(u)\in (0,1), поэтому её можно трактовать как вероятность положительного класса:

p(y=+1x)=σ(w0+d=1Dwdxd)p(y=+1|x)=\sigma\left( w_{0} + \sum_{d=1}^D w_{d} x^d \right)

Тогда вероятность отрицательного класса можно посчитать как

p(y=1x)=1p(y=+1x)p(y=-1|x) = 1 - p(y=+1|x)

Получили реализацию бинарной логистической регрессии.