Перейти к основному содержимому

Деформируемые архитектуры

Традиционные архитектуры по семантической сегментации и детекции объектов оперируют свёртками, имеющими квадратную область видимости (receptive field), где сторона квадрата - это размер ядра свёртки. Аналогично при построении эмбеддингов регионов интереса используется пирамидальный либо ROI пулинг), агрегирующий активации только по прямоугольной окрестности.

При этом реальный объект на изображении может быть произвольной формы, например, круглой или вытянутой. Вследствие этого сигнал, поступающий не с детектируемого объекта, зашумляет ответ, снижая точность распознавания.

Для более таргетного извлечения информации только с фактической области, на которой расположен объект, используется деформируемая свёртка и деформируемый ROI пулинг.

Деформируемая свёртка

В деформирумой свёртке (deformable convolution) [1] используется адаптивные сдвиги, автоматически настраиваемые другим модулем сети, как показано на рисунке [1]:

Для прогнозирования сдвигов используется внешний свёрточный слой из свёртки того же размера, что и базовая свёртка, для которой сдвиги предсказываются. Для каждой позиции этот слой предсказывает два числа - сдвиг по оси X и по оси Y.

Деформируемый ROI pooling

В двухстадийных детекторах, таких как Faster R-CNN, используется операция ROI pooling, в которой к региону интереса (region proposal) на карте признаков применяется один слой пирамидального пулинга, например сеткой 3x3, а в каждой области сетки ищется максимальное либо среднее значение по каждому каналу.

Регион интереса представляет собой прямоугольную область, что в общем случае не соответствует реальной форме детектируемого объекта. Поэтому в [1] предлагается ввести дополнительный модуль, который по признакам, извлечённым традиционным ROI пулингом, используя полносвязный слой, предскажет смещения областей агрегации, по которым будет работать основная ветка ROI пулинга. Эта схема названа деформируемым ROI пулингом (deformable ROI pooling) и показана ниже:

Также в работе предложено предсказывать сдвиги, используя свёрточный слой. В обоих случаях сдвиги предсказываются не абсолютные, а относительные (относительно ширины и высоты сдвигаемого региона), чтобы метод мог работать инвариантно с регионами разного размера.

Результаты

Использование деформируемой свёртки позволило повысить точность семантической сегментации, а деформируемого ROI пулинга - точность детекции за счёт более точной настройки области видимости этих операций к распознаваемому объекту [1]:

Литература

  1. Dai J. et al. Deformable convolutional networks //Proceedings of the IEEE international conference on computer vision. – 2017. – С. 764-773.