Перейти к основному содержимому

Mask R-CNN

Модель Mask R-CNN [1] представляет собой классический нейросетевой алгоритм сегментации объектов (instance segmentation). Она строится на базе детектора Faster R-CNN [2], поэтому относится к классу двухстадийных методов:

  • на первом шаге генерируются регионы-кандидаты (regions of interest, ROI) на изображении, в которых могут содержаться интересующие объекты

  • на втором шаге каждый регион кандидат относится к тому или иному классу, уточняется местоположение содержащей его рамки и предсказывается маска, выделяющая объект.

Общая схема метода показана ниже [1]:

Выделение маски выделено в отдельную ветку вычислений, не зависящих от классификации объекта (class) и уточнения позиции рамки (box). Оно осуществляется серией свёрток и транспонированных свёрток. В конце выдаётся CC карт признаков, отвечающих выделению каждого из классов. Функция потерь выделения маски штрафует только несоответствие карты, отвечающей классу, предсказанному классификатором.

В целом функция потерь состоит из 3х компонент:

  • точность классификации

  • точность выделения рамки

  • точность выделения маски на рамке

Выделение регионов-кандидатов производилось по карте признаков, извлекаемых свёрточным кодировщиком (backbone). Наилучший результат дало использование сети FPN.

Варианты ветви вычислений, выделяющей маску объектов показаны ниже для случая, когда кодировщиком выступает ResNet и FPN [1]:

Для повышения точности, в Mask R-CNN вместо операции RoIPool из Faster R-CNN (выделение одного слоя пирамидального пулинга) использовалась операция RoIAlign, делавшая то же самое, но не над исходными признаками, а над их билинейно интерполированными значениями с учётом произвольного расположения рамки региона интереса относительно карты признаков, что проиллюстрировано ниже [1]:

Примеры работы сети приведены ниже [1]:

Модель Mask R-CNN может также использоваться для оценки поз. Для этого вместо CC масок для каждого класса предсказывалось KK пространственных карт рейтингов присутствия для каждого опорного узла тела, по которым восстанавливается поза человека. Примеры работы модели для оценки поз приведены на следующем рисунке [1]:

Литература

  1. He K. et al. Mask r-cnn //Proceedings of the IEEE international conference on computer vision. – 2017. – С. 2961-2969.
  2. Ren S. et al. Faster R-CNN: Towards real-time object detection with region proposal networks //IEEE transactions on pattern analysis and machine intelligence. – 2016. – Т. 39. – №. 6. – С. 1137-1149.