Симметрия в пространстве весов
Рассмотрим пример многослойного персептрона:
Нетрудно заметить, что если синхронно переставить веса для всех входящих и исходящих связей для любой пары нейронов некоторого скрытого слоя (например веса, отвечающие красным и зелёным связям, отвечающие нейронам и соответственно), то мы получим нейросеть, моделирующую в точности ту же самую закономерность.
Если в слое нейронов, сколько эквивалентных перестановок такого типа можно произвести?
перестановок.
Если всего есть K скрытых слоёв с числом нейронов , то сколько всего эквивалентных перестановок можно произвести, получая ту же самую функцию?
Поскольку можем переставлять нейроны в рамках каждого слоя независимо, то будет перестановок.
Если используются нечётные функции активации (т.е. для которых ), то выбрав какой-то нейрон можно синхронно изменять знак входящих и исходящих связей - это не окажет влияния на прогнозирующую функцию.
Какие из рассмотренных функций активации являются нечётными?
Тождественная, гиперболический тангенс и жёсткий гиперболический тангенс.
Указанные симметрии в пространстве весов показывают, что функция потерь в пространстве весов будет обладать не одним, а сразу большим количеством эквивалентных минимумов, за счёт чего, в частности, она является невыпуклой.
На практике это не имеет большого значения, поскольку из всего многообразия эквивалентных минимумов функции потерь нам достаточно найти хотя бы один.