Mask R-CNN

Архитектура

Модель Mask R-CNN [1] - популярный двухстадийный метод сегментации объектов (instance segmentation). Она строится на базе детектора Faster R-CNN [2], поэтому относится к классу двухстадийных методов:

на первом шаге генерируются регионы-кандидаты (regions of interest, ROI) на изображении, в которых могут содержаться интересующие нас объекты;
на втором шаге каждый регион-кандидат
- относится к тому или иному классу
- уточняется расположение содержащей его рамки
- предсказывается маска, выделяющая объект.

Общая схема метода показана ниже [1]:

Выделение маски осуществляется отдельной веткой вычислений, не зависящих от классификации объекта и уточнения позиции рамки (class и box на схеме). Оно осуществляется серией свёрток и транспонированных свёрток. В конце выдаётся $C$ карт признаков (feature maps), отвечающих выделению каждого из классов. Функция потерь выделения маски штрафует несоответствие только той карты признаков, которая отвечает классу, предсказанному классификатором.

Функция потерь состоит из трёх компонент:

точность классификации;
точность выделения рамки;
точность выделения маски в рамке.

Выделение регионов-кандидатов производится по карте признаков, извлекаемых свёрточным кодировщиком (backbone).

Варианты ветви вычислений, выделяющей маску объектов, показаны ниже для случая, когда кодировщиком выступает ResNet и FPN [1]:

Лучший результат был получен с использованием сети FPN.

RoIAlign

Для повышения точности в Mask R-CNN вместо операции RoIPool из Faster R-CNN (использовавшего один слой пирамидального пулинга) использовалась операция RoIAlign, делавшая то же самое, но не над исходными признаками, а над их билинейно интерполированными значениями с учётом произвольного расположения рамки региона интереса относительно карты признаков, что проиллюстрировано ниже [1]:

Примеры работы сети приведены ниже [1]:

Оценка позы

В работе также рассматривалось применение модели Mask R-CNN для оценки поз (pose estimation).

Для этого вместо $C$ выделяющих масок для каждого класса предсказывалось $K$ пространственных карт рейтингов присутствия для каждого опорного узла тела, по которым восстанавливалась поза человека.

Примеры решения этой задачи показаны ниже [1]:

Mask R-CNN

Архитектура​

RoIAlign​

Оценка позы​

Литература​

Архитектура

RoIAlign

Оценка позы

Литература