Модель нейрона
Нейронные сети (neural networks) изначально появились как попытка моделировать работу человеческого мозга, который состоит из нейронов, связанные друг с другом аксонами - вытянутыми отростками нервных клеток. Каждый нейрон может перейти в возбуждённое состояние, в этом случае он передаёт по аксонам сигнал другим нейронам посредством электро-химического взаимодействия.
В простейшем виде биологический нейрон моделируется преобразованием:
где
-
- выход нейрона (что он посылает по аксонам другим нейронам);
-
- нейрон, всегда выдающий константу 1;
-
- нейроны, имеющие входящую связь с рассматриваемым нейроном;
-
- веса связей;
- они показывают, во сколько раз изменяется сигнал, передаваемый нейронами текущему нейрону ;
-
- некоторая фиксированная функция активации (activation function).
Геометрически это можно представить следующим образом:
Модель нейрона в машинном обучении
В машинном обучении нейрон можно применять как в задаче регрессии, так и в задаче классификации к -мерному вектору признаков .
Напомним, что в учебнике признаки обозначаются верхним индексом: - -й признак вектора признаков. А - -й объект обучающей выборки.
В обоих случаях входящими нейронами будут признаки входного вектора и константa , :
Таким образом, одиночный нейрон моделирует закономерность:
где параметр называется смещением (bias).
Веса представляют собой параметры, настраиваемые по данным. В зависимости от того, как выбрать функцию активации, мы сможем решать как задачу регрессии, так и задачу бинарной классификации.
Регрессия
Регрессия получается при выборе . Тогда
Бинарная классификация
Классификация получается при выборе . Сигмоидная функция принимает значения на интервале , поэтому её можно трактовать как вероятность положительного класса:
Тогда вероятность отрицательного класса можно посчитать как
Это даёт нам нейросетевую реализацию бинарной логистической регрессии.