Обработка видео
Рассмотрим основные задачи, решаемые нейросетями при обработке видео-данных.
Определение действий на видео
В задаче определения действия (activity recognition [1]) по входному видео необходимо понять, что какое событие на нём происходит. У алгоритма могут быть быть следующие выходы:
-
Класс одного из заданных действий.
- Например, при игре на игровой приставке по жесту игрока нужно осуществить то или иное действие, при этом жесты заранее определены и заданы. Эта задача также известна как распознавание жестов (gesture recognition [2]).
-
Текстовое описание происходящего в виде свободного текста (video captioning [3], [4]).
- Например, в системе поиска релевантных видео по текстовому запросу.
3D-реконструкция
В задаче 3D-реконструкции по видеосъёмке объекта из разных позиций и ракурсов необходимо восстановить 3D-модель объекта (3D reconstruction from multi-view video).
Модели, решающие эту задачу, используются в автономных транспортных средствах для улучшения восприятия окружающей среды: обнаружение объектов, расчёт расстояний. Также модели используются для воссоздания 3D-моделей зданий и памятников на основе видео/фото с разных ракурсов.