Перейти к основному содержимому

Симметрия в пространстве весов

Рассмотрим пример многослойного персептрона:

Нетрудно заметить, что если синхронно переставить веса для всех входящих и исходящих связей для любой пары нейронов некоторого скрытого слоя (например веса, отвечающие красным и зелёным связям, отвечающие нейронам a12a^2_1 и a22a^2_2 соответственно), то мы получим нейросеть, моделирующую в точности ту же самую закономерность.

Если в слое MM нейронов, сколько эквивалентных перестановок такого типа можно произвести?

M!=M(M1)(M2)...21M!=M \cdot (M-1) \cdot (M-2) ... \cdot 2 \cdot 1 перестановок.

Если всего есть K скрытых слоёв с числом нейронов M1,M2,...MKM_1,M_2,...M_K, то сколько всего эквивалентных перестановок можно произвести, получая ту же самую функцию?

Поскольку можем переставлять нейроны в рамках каждого слоя независимо, то будет M1!M2!...MK1!MK!M_1! \cdot M_2! \cdot ... \cdot M_{K-1}! \cdot M_K! перестановок.

Если используются нечётные функции активации (т.е. для которых h(u)=h(u)h(-u)=-h(u)), то выбрав какой-то нейрон можно синхронно изменять знак входящих и исходящих связей - это не окажет влияния на прогнозирующую функцию.

Какие из рассмотренных функций активации являются нечётными?

Тождественная, гиперболический тангенс и жёсткий гиперболический тангенс.

Указанные симметрии в пространстве весов показывают, что функция потерь в пространстве весов будет обладать не одним, а сразу большим количеством эквивалентных минимумов, за счёт чего, в частности, она является невыпуклой.

На практике это не имеет большого значения, поскольку из всего многообразия эквивалентных минимумов функции потерь нам достаточно найти хотя бы один.