Функции активации
Рассмотрим популярные функции активации , использующиеся в нейросетях.
Тождественная фун кция активации (identity)
Эта активация используется в выходном слое, чтобы моделировать регрессионный выход. В скрытых слоях почти не используется, т.к. суперпозиция линейных функций приводит к линейной функции.
Сигмоидная функция активации (sigmoid)
Принимает значения и используется в выходном слое нейронной сети для решения задачи бинарной классификации, предсказывая вероятность положительного класса .
В скрытых слоях почти не используется, поскольку за пределами интервала выходит на горизонтальные асимптоты -1 и +1, почти не меняясь, в результате чего её градиент близок к нулю. Поскольку нейросети оптимизируются численными методами, используя градиент, это приводит к медленной настройке сети и даже застреванию сигмоидных активаций в районе значений .
Гиперболический тангенс (tangh)
С точностью до линейного сжатия и сдвига совпадает с сигмоидной функцией активации, но, в отличие от неё, является нечётной функцией:
что даёт преимущество при инициализации и настройке нейросети за счёт того, что если признаки - случайные величины, центрированные вокруг нуля, то образованные от них активации также будут центрированными вокруг нуля, а также активации от активаций и так далее по всем слоям нейросети, т.е. по ходу вычислений не будет происходить систематического смещения в ту или иную сторону.
Тем не менее, гиперболический тангенс используется в основном только в выходных регрессионных слоях, где есть ограничение на выход и снизу, и сверху, например, где нужно генерировать степень поворота руля , чтобы оптимально объехать препятствие.
В скрытых слоях он практически не используется, поскольку обладает тем же недостатком, что и сигмоида: за пределами интервала выходит на горизонтальные асимптоты -1 и +1 и почти не изменяется, из-за чего градиент по активации становится близким к нулю, и сеть начинает слишком медленно настраиваться.
Плавная функция знака (SoftSign)
Soft-sign активация идейно повторяет tangh-активацию, но имеет характер приближения к асимптотам +1 и -1 полиномиальный, а не экспоненциальный. Т.е. на константные значения функция выходит медленнее, что улучшает сходимость при настройке сети. Также soft-sign активация вычисляется быстрее, чем tangh. Тем не менее, из-за наличия горизонтальных асимптот в скрытых слоях используется редко.