Перейти к основному содержимому

YOLACT

Модель YOLACT - популярный одностадийный метод сегментации объектов (instance segmentation). Он работает менее точно, чем Mask R-CNN, но зато существенно быстрее, поскольку в нём не производится предварительный этап генерации регионов интереса (regions of interest, RoI).

Архитектура сети показана ниже [1]:

Вначале из изображения извлекается промежуточное признаковое представление, используя архитектуру Feature Pyramid Network (FPN), позволяющую получить семантически сложные признаки в высоком разрешении.

Аналогично модели RetinaNet, на каждом уровне декодировщика FPN (и для каждой пространственной позиции) работает одинаковый детектор. Поскольку каждый уровень имеет своё разрешение, это позволяет детектировать как большие, так и малые объекты. Детектор, в свою очередь, выдаёт для каждого из шаблонов выделяющих рамок (aa штук):

  • 4 регрессионных ответа (коррекции координат выделяющей рамки);

  • CC вероятностей классов.

Дополнительно детектор в YOLACT предсказывает kk смешивающих коэффициентов (mask coefficients), как показано на схеме [1] справа (слева для сравнения показан детектор в RetinaNet) [1]:

Таким образом, для каждого уровня FPN декодировщика и для каждой пространственной позиции предсказывается a(4+C+k)a(4+C+k) значений.

Также к самому нижнему ярусу FPN декодировщика (обладающего максимальным пространственным разрешением) применяется сеть, определяющая kk масок-прототипов (prototypes), из линейной комбинации которых будут составляться итоговые маски объектов. Примеры масок прототипов приведены ниже [1]:

Вычислительная ветка для их выделения состояла из операций повышения разрешения и свёрток [1]:

Каждому прогнозу детектора на каждой пространственной позиции ставилась в соответствие маска, получаемая как линейная комбинация масок-прототипов, взвешенных с полученными ранее смешивающими коэффициентами в соответствующей позиции (шаг assembly на первом рисунке), после чего полученная маска обрезалась выделяющей рамкой, полученной из задачи регрессии детектора (шаг crop на первом рисунке).

YOLOACT расшифровывается как You Only Look At CoefficienTs, поскольку маска выделений строится как линейная комбинация масок-прототипов с предсказанными коэффициентами.

Примеры итоговых результатов работы YOLACT приведены на рисунке [1]:

Литература

  1. Bolya D. et al. Yolact: Real-time instance segmentation //Proceedings of the IEEE/CVF international conference on computer vision. – 2019. – С. 9157-9166.