Сегментация объектов
При распознавании объектов на изображениях можно решать 4 основных типа задачи:
-
классификация (classification, recognition)
-
семантическая сегментация (semantic segmentation)
-
детекция объектов (object detection)
-
сегментация объектов (instance segmentation)
Результат решения каждой задачи показан ниже [1]:
При классификации изображений выходом являются вероятности присутствия объектов разных классов на изображении в целом.
В детекции каждый объект интересующих классов выделяется прямоугольной рамкой с меткой класса, которому объект принадлежит.
В семантической сегментации каждый пиксель помечается тем или иным классом, в зависимости от того, объект какого типа он покрывает. При этом, если присутствует несколько представителей одного класса, то метки пикселей их различать не будут. Например, на иллюстрации выше присутствует как несколько овец, но все пиксели их содержащие были помечены одним цветом.
В сегментации объектов (instance segmentation), как и в семантической сегментации своим классом помечается каждый пиксель изображения, при этом различаются выделения различных представителей одного класса. На иллюстрации каждая овца была помечена своим цветом. В этом смысле сегментация экземпляров представляет собой усложнённый вариант детекции объектов, когда каждый объект выделяется не рамкой, а маской произвольной формы.
Технически семантическая сегментация решается надстройкой над архитектурой детекции объектов, в которой помимо выделения рамки присутствует блок, прогнозирующий маску, выделяющую каждый объект в рамке.
Как и в случае детекции объектов, модели сегментации объектов бывают
-
одностадийные, которые сразу предсказывающие результат
-
и двухстадийные, в которых сначала предсказываются перспективные регионы (region proposals), для каждого из которых производится классификация типа объекта, уточнение коорди нат рамки и выделение макси объекта.