Перейти к основному содержимому

Развитие ResNet

Успех сети ResNet [1] породил интерес к развитию этой архитектуры. Перечислим основные работы по улучшению и обобщению этой архитектуры.

Stochastic depth

В [1] показано, что каждый остаточный блок вносит относительно небольшое изменение во входной сигнал. Исключение отдельных блоков не привносит такого катастрофического изменения качества прогнозов, как в случае обычных свёрточных сетей. Поэтому становится возможной дополнительная регуляризация ResNet сетей, названная стохастической глубиной (stochastic depth, [2]) и основанная на регуляризации DropOut, но в которой включаются/исключаются не отдельные нейроны, а целые нелинейные трансформации F(x)\mathcal{F}(x) остаточных блоков (residual blocks). Такая регуляризация

  • позволяет гибко настраивать сложность ResNet, варьируя вероятность исключения каждого блока;

  • увеличивает точность прогнозирования за счёт регуляризации;

  • ускорить обучение, поскольку на каждом обучающем минибатче проход осуществляется не по всей сети, а по её случайной части; на тесте же используется полная версия глубокой сети.

Магистральные сети

Магистральные сети (highway networks, [3]) обобщают ResNet. Напомним, что в классическом остаточном блоке ResNet сигнал идёт через нелинейное преобразование F(x)\mathcal{F}(x) и тождественную связь, а результаты потом суммируются:

y=F(x)+xy=\mathcal{F}(x)+x

Получается, что оба вида обработки сигнала участвуют на равных, хотя остаётся возможность усилить нелинейное преобразование, задав ему более высокие веса.

В магистральных сетях предлагается управлять тем, какая часть сигнала проходит через нелинейное преобразование, а какая - через тождественную связь за счёт использования отдельной настраиваемой функции вентиля (gate) T(x)T(x):

y=T(x)F(x)+(1T(x))x,y=T(x)\odot\mathcal{F}(x)+(1-T(x))\odot x,

где \odot - операция поэлементного перемножения, поэтому x,T(x),F(x)x,T(x),\mathcal{F}(x) должны иметь одинаковую размерность.

Xception и ResNeXt

Модель Xception [4] использует архитектуру аналогичную ResNet, но внутри каждого остаточного блока вместо обычных свёрток используются поканальные сепарабельные свёртки (depthwise separable convolution).

Модель ResNeXt [5] также построена на базе ResNet, но вместо обычных свёрток использует групповые.

Обе идеи позволили повысить точность, производительность и уменьшить число настраиваемых параметров по сравнению с базовой архитектурой ResNet на датасете ImageNet.

Литература

  1. He K. et al. Deep residual learning for image recognition //Proceedings of the IEEE conference on computer vision and pattern recognition. – 2016. – С. 770-778.

  2. Huang G. et al. Deep networks with stochastic depth //Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11–14, 2016, Proceedings, Part IV 14. – Springer International Publishing, 2016. – С. 646-661.

  3. Srivastava R. K., Greff K., Schmidhuber J. Highway networks //arXiv preprint arXiv:1505.00387. – 2015.

  4. Chollet F. Xception: Deep learning with depthwise separable convolutions //Proceedings of the IEEE conference on computer vision and pattern recognition. – 2017. – С. 1251-1258.

  5. Xie S. et al. Aggregated residual transformations for deep neural networks //Proceedings of the IEEE conference on computer vision and pattern recognition. – 2017. – С. 1492-1500.