Перейти к основному содержимому

Модель нейрона

Нейронные сети (neural networks) изначально появились как попытка моделировать работу человеческого мозга, который состоит из нейронов, связанные друг с другом аксонами - вытянутыми отростками нервных клеток. Каждый нейрон может перейти в возбуждённое состояние, в этом случае он передаёт по аксонам сигнал другим нейронам посредством электро-химического взаимодействия.

В простейшем виде биологический нейрон моделируется преобразованием:

a=h(k=0Kwkak),a=h\left( \sum_{k=0}^K w_{k} a_k \right),

где

  • aa - выход нейрона (что он посылает по аксонам другим нейронам);

  • a01a_0\equiv 1 - нейрон, всегда выдающий константу 1;

  • a1,...aKa_1,...a_K - нейроны, имеющие входящую связь с рассматриваемым нейроном;

  • w0,w1,...wKw_0,w_1,...w_K - веса связей;

    • они показывают, во сколько раз изменяется сигнал, передаваемый нейронами a0,a1,...aKa_0,a_1,...a_K текущему нейрону aa;
  • h()h(\cdot) - некоторая фиксированная функция активации (activation function).

Геометрически это можно представить следующим образом:

Модель нейрона в машинном обучении

В машинном обучении нейрон можно применять как в задаче регрессии, так и в задаче классификации к DD-мерному вектору признаков x=[x1,x2,...xD]\mathbf{x}=[x^1,x^2,...x^D].

Обозначения признаков

Напомним, что в учебнике признаки обозначаются верхним индексом: xix^i - ii-й признак вектора признаков. А xn\mathbf{x}_n - nn-й объект обучающей выборки.

В обоих случаях входящими нейронами будут признаки входного вектора xx и константa 11, K=DK=D:

a01,a1=x1,a2=x2...aK=xDa_0\equiv 1,\,a_1=x^1,\,a_2=x^2\,...a_{K}=x^D

Таким образом, одиночный нейрон моделирует закономерность:

y(x)=h(w0+d=1Dwdxd),y(\mathbf{x})=h\left( w_{0} + \sum_{d=1}^D w_{d} x^d \right),

где параметр w0w_0 называется смещением (bias).

Веса w0,w1,...wDw_0,w_1,...w_{D} представляют собой параметры, настраиваемые по данным. В зависимости от того, как выбрать функцию активации, мы сможем решать как задачу регрессии, так и задачу бинарной классификации.

Регрессия

Регрессия получается при выборе h(u)=uh(u)=u. Тогда

y(x)=w0+d=1Dwdxdy(\mathbf{x}) = w_{0} + \sum_{d=1}^D w_{d} x^d

Бинарная классификация

Классификация получается при выборе h(u)=σ(u)=1/(1+eu)h(u)=\sigma(u)=1/(1+e^{-u}). Сигмоидная функция σ(u)\sigma(u) принимает значения на интервале (0,1)(0,1), поэтому её можно трактовать как вероятность положительного класса:

p(y=+1x)=σ(w0+d=1Dwdxd)p(y=+1|\mathbf{x})=\sigma\left( w_{0} + \sum_{d=1}^D w_{d} x^d \right)

Тогда вероятность отрицательного класса можно посчитать как

p(y=1x)=1p(y=+1x)p(y=-1|\mathbf{x}) = 1 - p(y=+1|\mathbf{x})

Это даёт нам нейросетевую реализацию бинарной логистической регрессии.