Чем двухстадийные методы детекции объектов отличаются от одностадийных? Что происходит на каждой стадии?
Чем ограничено максимальное число детектируемых о бъектов в архитектуре YOLO и за счёт чего удаётся детектировать больше объектов в других архитектурах?
В чём преимущество признаков, извлекаемых архитектурой feature pyramid network по сравнению с признаками, извлекаемыми моделью SSD?
Что такое шаблонная рамка (anchor box) и зачем она вводится? Как можно производить детекцию без использования шаблонных рамок?
Чем сфокусированные потери (focal loss) отличаются от кросс-энтропийных потерь? Какие преимущества дают сфокусированные потери?