Перейти к основному содержимому

Модель RetinaNet

Модель RetinaNet [1] существенно обогнала в качестве работы модели YOLO и SSD.

В этой модели использовалась сеть FPN для генерации представлений изображения в разном разрешении. Это позволило производить детекцию как в малых, так и в больших пространственных разрешениях, эффективно выделяя как большие, так и малые объекты соответственно. Причём детекторы на каждом слое работали над высокоуровневыми признаками.

Схема модели RetinaNet:

К каждому слою декодера FPN сети применялись две независимые сети: детектор и локализатор со своими параметрами. Таким образом, локализация формально не зависела от детекции. При этом к каждому слою декодера применялсся детектор с одними и теми же параметрами, то же касалось и локализатора.

Классификатор и локализатор представляли собой последовательное применение 4х свёрток 3x3. После первых 3х свёрток шла ReLU нелинейность.

Классификаторы и локализаторы для каждой позиции применялись KK раз для KK шаблонных рамок. Рассматривались рамки

  • малого, среднего и большого размера;

  • вытянутых вбок, квадратных и вытянутых вверх соответственно.

Это давало K=9K=9 вариантов для каждой пространственной позиции.

Выходы классификатора и локализатора

Последней нелинейностью в классификаторе была сигмоидная активация, чтобы выдавать вероятности каждого из детектируемых классов. Таким образом, классификатор выдавал CKC\cdot K выходов. Если все активации были близки к нулю, это трактовалось как отсутствие объекта.

Последней нелинейностью в локализаторе была тождественная функция, локализатор выдавал 4K4\cdot K выходов: смещение по вертикали и горизонтали центра шаблонной рамки, а также изменение её стандадртной ширины и высоты.

Функция потерь

Сопоставление детекций

Поскольку в каждой пространственной позиции для KK шаблонных рамок предсказываются рамки и классы объектов, для расчёта функции потерь необходимо сопоставить предсказанные детекции с реальными.

Предсказанные детекции сопоставлялись реальным, если мера IoU их пересечения была выше 0.5. Если она была ниже 0.4, то сопоставлялся фоновый класс (отсутствие класса). Случаи IoU[0.4,0.5)\in [0.4,0.5) игнорировались.

Типы потерь

В RetinaNet использовалась функция потерь, состоящая из 2х компонент:

  • функция потерь локализации (определение местоположения объектов)

  • функция потерь классификации (корректность угадывания класса)

В качестве функции потерь локализации использовалась функция потерь Хубера, как дифференцируемая и устойчивая к выбросам.

Классификатор выдавал CC независимых вероятностей классов (рейтингов, пропущенных через сигмоиду). Фоновому классу отвечала ситуация, когда вероятности всех интересуемых классов равны нулю. Каждый выход классификатора можно было бы настраивать бинарной кросс-энтропийной функцией потерь:

CE(y,p)=ylog(p)(1y)log(1p),CE(y,p) = -y\log(p)-(1-y)\log(1-p),

где y{0,1}y\in\{0,1\} - индикатор присутствия целевого класса.

Авторы модели RetinaNet обратили внимание, что в огромном количестве детекций присутствуют ложные срабатывания (активация на фоновый класс), при том, что целевых объектов на каждом изображении сравнительно немного. Фоновый класс детектируется достаточно уверенно, но за счёт того, что число срабатываний на фоновый класс существенно превосходит число обнаружений целевого класса, оптимизация нейросети сосредотачивается не на улучшении обнаружений целевых классов, а на повышении точности распознавания фоновых классов. Для того, чтобы так не происходило, в RetinaNet предлагается новый вид потерь классификации - focal loss:

FL(y,p)=y(1p)γlog(p)(1y)pγlog(1p),γ>0.FL(y,p) = -y(1-p)^\gamma \log(p) - (1-y)p^\gamma \log(1-p),\quad \gamma>0.

Домножение на (1p)γ(1-p)^\gamma снижает вклад в совокупные потери обнаружений с высоким уровнем уверенности в классе, а домножение на pγp^\gamma снижает вклад обнаружений с высоким уровнем уверенности в присутствии фона. За счёт такого перевзвешивания большое количество обнаружений фона перестаёт доминировать в общей сумме, и оптимизация начинает больше внимания сосредотачивать на обнаружении более редких целевых классов.

Ниже показан пример влияния дополнительного множителя на логарифм вероятности истинного класса ptp_t:

Как видно из графика, потери уменьшаются при pt1p_t\to 1 существенно быстрее, чем для стандартных кросс-энтропийных потерь.

В работе предлагалось брать γ=2\gamma=2, а вес каждого слагаемого в focal loss дополнительно домножался на веса, принижающие вклад частотных классов.

Литература