Что является выходом сети, осуществляющей семантическую сегментацию? Какой критерий используется для его настройки?
Почему для получения результатов семантической сегментации не подходит применение классификационной свёрточной сети к каждому пикселю изображения?
Какой метод повышения пространственного разрешения в свёрточных нейросетях содержит настраиваемые параметры? В чём недостаток этого метода и как его можно исправить?
Меры IoU и Dice измеряют качество или неточность сегментации? Предложите дифференцируе мые аналоги этих мер, чтобы по ним можно было оптимизировать модель.
Зачем нужно совмещение низкоуровневых и высокоуровневых признаков в моделях семантической сегментации? Как устроено это совмещение в моделях U-net, LinkNet и U-net++?
Как модифицировать функцию потерь семантической сегментации, чтобы заставить модель точнее классифицировать границы объектов?
В чём заключается принцип deep supervision?
Какие архитектурные принципы можно применить, чтобы выходы семантической сегментации учитывали как локальный, так и более глобальный контекст изображения?