Модель CenterNet

Архитектура

Модель CenterNet [1] строится на базе CornerNet и дополнительно увеличивает её точность за счёт реконструкции выделяющих рамок не только по их левому верхнему и правому нижнему углу, но и по предсказываемому центру рамки, как показано на рисунке [1]:

Предсказание углов хорошо настраивается выделять границы объектов, однако для точности распознавания ему всё ещё недостаёт заглядывания внутрь содержимого извлекаемой рамки, чтобы убедиться в том, что целевой объект там действительно находится.

В CenterNet по промежуточному представлению изображения предсказываются тепловые карты (heatmaps) рейтингов присутствия как левого верхнего и правого нижнего углов, так и центра.

Также предсказывается карта смещений (offsets) для обнаруженных позиций углов и центра.

Параллельно с этим предсказывается карта эмбеддингов (векторов фиксированного размера) для каждой позиции. Как и в CornerNet, считается, что углы соответствуют одной рамке, если их эмбеддинги близки. Но дополнительно к этому рамка детектируется, если ей примерно соответствует обнаруженный центр рамки, что уберегает метод от ложных срабатываний (false positives), которые часто встречаются в CornerNet, как показано ниже [1]:

Красный полупрозрачный регион определяет, куда должна попасть центральная точка, чтобы в CenterNet детекция сработала. Для двух ложных срабатываний CornerNet слева центр в него не попадает, поэтому этих ложных срабатываний в CenterNet не будет!

Специальные виды пулинга

Для точного детектирования центра рамки используется специальный вид пулинга - CenterPooling. Этот пулинг для каждой позиции на карте признаков

находит максимальное значение вдоль горизонтальной оси;
находит максимальное значение вдоль вертикальной оси;
суммирует два найденных максимума.

Для повышения точности детектирования углов рамок вместо CornerPooling используется CascadeCornerPooling. CornerPooling хорошо работает для детекции границ объекта, но не способен заглядывать в его внутренние области, что как раз и исправляется через CascadeCornerPooling, в котором для левого верхнего угла рамки для каждой позиции карты признаков

ищется максимальный элемент, если сдвигаться вниз до края изображения;
ищется максимальный элемент, если относительно позиции найденного максимума на шаге 1 сдвигаться вправо;
максимумы первого и второго шага суммируются, сумма записывается в текущую позицию.

Для правого нижнего угла операции в CascadeCornerPooling аналогичны, но инвертируются:

сдвиг вправо заменяется на сдвиг влево;
сдвиг вниз заменяется на сдвиг вверх.

Графически CenterPooling, CornerPooling и CascadeCornerPooling показаны ниже на рисунках (a), (b) и (c) [1]:

Применение

Для повышения точности CenterNet применялся к исходному изображению и горизонтально отражённому, при этом одно и то же изображение бралось в разных разрешениях. К обнаруженным детекциям применялось мягкое подавление немаксимумов (soft NMS).

В итоге на датасете MS COCO [2] предложенная модель показала значение AP=0.47.

Модель CenterNet

Архитектура​

Специальные виды пулинга​

Применение​

Литература​

Архитектура

Специальные виды пулинга

Применение

Литература