Перейти к основному содержимому

Mask R-CNN

Архитектура

Модель Mask R-CNN [1] - популярный двухстадийный метод сегментации объектов (instance segmentation). Она строится на базе детектора Faster R-CNN [2], поэтому относится к классу двухстадийных методов:

  • на первом шаге генерируются регионы-кандидаты (regions of interest, ROI) на изображении, в которых могут содержаться интересующие объекты

  • на втором шаге каждый регион кандидат относится к тому или иному классу, уточняется местоположение содержащей его рамки и предсказывается маска, выделяющая объект.

Общая схема метода показана ниже [1]:

Выделение маски осуществляется отдельной веткой вычислений, не зависящих от классификации объекта и уточнения позиции рамки (class и box на схеме). Оно осуществляется серией свёрток и транспонированных свёрток. В конце выдаётся CC карт признаков (feature maps), отвечающих выделению каждого из классов. Функция потерь выделения маски штрафует несоответствие только той карты признаков, которая отвечающей классу, предсказанному классификатором.

В целом функция потерь состоит из 3х компонент:

  • точность классификации

  • точность выделения рамки

  • точность выделения маски на рамке

Выделение регионов-кандидатов производится по карте признаков, извлекаемых свёрточным кодировщиком (backbone).

Варианты ветви вычислений, выделяющей маску объектов показаны ниже для случая, когда кодировщиком выступает ResNet и FPN [1]:

Наилучший результат дало использование сети FPN.

RoIAlign

Для повышения точности, в Mask R-CNN вместо операции RoIPool из Faster R-CNN (использовавшего один слой пирамидального пулинга) использовалась операция RoIAlign, делавшая то же самое, но не над исходными признаками, а над их билинейно интерполированными значениями с учётом произвольного расположения рамки региона интереса относительно карты признаков, что проиллюстрировано ниже [1]:

Примеры работы сети приведены ниже [1]:

Оценка позы

В работе также рассматривалось применение модели Mask R-CNN для оценки поз (pose estimation). Примеры решения этой задачи показаны ниже [1]:

Для этого вместо CC выделяющих масок для каждого класса предсказывалось KK пространственных карт рейтингов присутствия для каждого опорного узла тела, по которым восстанавливалась поза человека.

Литература

  1. He K. et al. Mask r-cnn //Proceedings of the IEEE international conference on computer vision. – 2017. – С. 2961-2969.
  2. Ren S. et al. Faster R-CNN: Towards real-time object detection with region proposal networks //IEEE transactions on pattern analysis and machine intelligence. – 2016. – Т. 39. – №. 6. – С. 1137-1149.