Перейти к основному содержимому

Деформируемые архитектуры

Традиционные архитектуры по семантической сегментации и детекции объектов оперируют свёртками, имеющими квадратную область видимости (receptive field), где сторона квадрата - это размер ядра свёртки. Аналогично при построении эмбеддингов регионов интереса используется пирамидальный либо ROI-пулинг), агрегирующий активации только по прямоугольной окрестности.

При этом реальный объект на изображении может быть произвольной формы, например, круглой или вытянутой. Вследствие этого сигнал, поступающий не с детектируемого объекта, зашумляет ответ, снижая точность распознавания.

Для более таргетного извлечения информации только с фактической области, на которой расположен объект, используется деформируемая свёртка и деформируемый ROI-пулинг.

Деформируемая свёртка

В деформирумой свёртке (deformable convolution) [1] используются адаптивные сдвиги, автоматически настраиваемые другим модулем сети, как показано на рисунке [1]:

Для прогнозирования сдвигов используется внешний свёрточный слой из свёртки того же размера, что и базовая свёртка, для которой сдвиги предсказываются. Для каждой позиции этот слой предсказывает два числа - сдвиг по оси X и по оси Y.

Деформируемый ROI pooling

В двухстадийных детекторах, таких как Faster R-CNN, используется операция ROI pooling, в которой к региону интереса (region proposal) на карте признаков применяется один слой пирамидального пулинга, например, сеткой 3x3, а в каждой области сетки ищется максимальное либо среднее значение по каждому каналу.

Регион интереса представляет собой прямоугольную область, что в общем случае не соответствует реальной форме детектируемого объекта. Поэтому в [1] предлагается ввести дополнительный модуль, который по признакам, извлечённым традиционным ROI-пулингом, используя полносвязный слой, предскажет смещения областей агрегации, по которым будет работать основная ветка ROI-пулинга. Эта схема названа деформируемым ROI пулингом (deformable ROI pooling) и показана ниже:

Также в работе предложено предсказывать сдвиги, используя свёрточный слой. В обоих случаях сдвиги предсказываются не абсолютные, а относительные (относительно ширины и высоты сдвигаемого региона), чтобы метод мог работать инвариантно с регионами разного размера.

Результаты

Использование деформируемой свёртки позволило повысить точность семантической сегментации, а деформируемого ROI-пулинга - точность детекции за счёт более точной настройки области видимости этих операций к распознаваемому объекту [1]:

Литература

  1. Dai J. et al. Deformable convolutional networks //Proceedings of the IEEE international conference on computer vision. – 2017. – С. 764-773.