Развитие ResNet

Успех сети ResNet [1] породил интерес к развитию этой архитектуры. Перечислим основные работы по улучшению и обобщению этой архитектуры.

Stochastic depth

В [1] показано, что каждый остаточный блок вносит относительно небольшое изменение во входной сигнал. Исключение отдельных блоков не привносит такого катастрофического изменения качества прогнозов, как в случае обычных свёрточных сетей. Поэтому становится возможной дополнительная регуляризация ResNet-сетей, названная стохастической глубиной (stochastic depth, [2]) и основанная на регуляризации DropOut, но в которой включаются/исключаются не отдельные нейроны, а целые нелинейные трансформации $\mathcal{F}(x)$ остаточных блоков (residual blocks). Такая регуляризация

позволяет гибко настраивать сложность ResNet, варьируя вероятность исключения каждого блока;
уменьшает переобучение модели за счёт регуляризации;
ускоряет обучение, поскольку на каждом обучающем минибатче проход осуществляется не по всей сети, а по её случайной части.

На тесте же используется полная версия глубокой сети без прореживания, но выходы нелинейных преобразований домножаются на вероятность оставления их в сети во время обучения.

Магистральные сети

Магистральные сети (highway networks, [3]) обобщают ResNet. Напомним, что в классическом остаточном блоке ResNet сигнал идёт через нелинейное преобразование $\mathcal{F}(\mathbf{x})$ и тождественную связь, а результаты потом суммируются:

\mathbf{y}=\mathcal{F}(\mathbf{x})+\mathbf{x}

Получается, что оба вида обработки сигнала участвуют на равных, хотя остаётся возможность усилить нелинейное преобразование, задав ему более высокие веса.

В магистральных сетях предлагается управлять тем, какая часть сигнала проходит через нелинейное преобразование, а какая - через тождественную связь за счёт использования настраиваемой функции вентиля (gate) $T(\mathbf{x})$ :

\mathbf{y}=T(\mathbf{x})\odot\mathcal{F}(\mathbf{x})+(1-T(\mathbf{x}))\odot \mathbf{x},

где $\odot$ - операция поэлементного перемножения. $\mathbf{x},T(\mathbf{x}),\mathcal{F}(\mathbf{x})$ при этом должны иметь одинаковую размерность.

Xception и ResNeXt

Модель Xception [4] использует архитектуру, аналогичную ResNet, но внутри каждого остаточного блока вместо обычных свёрток используются поканальные сепарабельные свёртки (depthwise separable convolution).

Модель ResNeXt [5] также построена на базе ResNet, но вместо обычных свёрток использует групповые свёртки.

Обе идеи позволили повысить точность, производительность и уменьшить число настраиваемых параметров по сравнению с базовой архитектурой ResNet на датасете ImageNet.

Развитие ResNet

Stochastic depth​

Магистральные сети​

Xception и ResNeXt​

Литература​

Stochastic depth

Магистральные сети

Xception и ResNeXt

Литература