Перейти к основному содержимому

Обработка видео

Рассмотрим основные задачи, решаемые при нейросетевой обработке видео-данных.

В задаче определения действия (activity recognition) по входному видео необходимо понять, что на нём происходит. При этом выходом определения действия может быть

  • Класс одного из заданных действий.

    • например, при игре на игровой приставке по жесту игрока нужно осуществить то или иное действие, при этом жесты заранее определены и заданы. Эта задача также известна как распознавание жестов (gesture recognition).
  • Текстовое описание происходящего в виде свободного текста.

    • например, в системе безопасности, наблюдающей за людьми, или за конвейером на производстве; при этом допускаются чрезвычайные ситуации, заранее не предусмотренные при разработке системы.

В задаче 3-D реконструкции по видеосъемке объекта из разных позиций и ракурсов необходимо восстановить 3-D модель объекта. Используется в картографии при аэрофотосъемке, построении 3-D макетов помещений.

Задача трекинга объектов на видео (object tracking) представляет собой задачу детекции объектов (object detection), т.е. выделение объекта рамкой. При этом детекция производится точнее за счёт использования информации с более ранних и более поздних детекций и интерполяции движения объекта. Обычно для интерполяции используется фильтр Калмана (Kalman filter). Интерполяция движения позволяет обнаруживать движущийся объект более устойчиво, даже если на некоторых кадрах он загораживается другими объектами. Трекинг объектов используется для

  • контроля пассажиропотока, подсчёта числа вошедших и вышедших пассажиров;

  • слежения за игроками во время футбольного матча, автоматического расчёта, сколько каждый игрок пробежал за матч;

  • слежения за быстро движущимися объектами, например теннисным мячом во время соревнований; автоматическое определение аута (когда мяч коснулся земли за пределами поля);

  • слежения за машинами, автоматическое определение превышения допустимой скорости и аварий на дорогах.

Трекинг может быть совмещён с другой задачей, например можно не только следить за собеседниками на совещании, но и определять, когда какой собеседник говорит, чтобы камера могла автоматически на нём сфокусироваться.

Отдельный более сложный класс задач представляет генерация видео (video generation).

Стилизация видео (video style transfer) - задача, в которой видео необходимо перерисовать в стиле, задаваемом другим изображением (обычно картиной известного художника). Широко применяется в индустрии развлечений.

Можно решать задачу предсказания будущих кадров по уже известному видео. Например, по карте движения атмосферных циклонов предсказывать погоду в будущем.

В отличие от изображений, у которых качество измеряется разрешением по пространственным координатам, у видео разрешение измеряется также по временной оси (число кадров в секунду). Соответственно, существует задача, аналогичная супер-разрешению у изображений, но в которой путём сложной нейросетевой интерполяции между соседними кадрами можно повысить разрешение по временной шкале, увеличив тем самым число кадров в секунду и общую плавность видео. Классическое супер-разрешение (повышение пространственного разрешения) также лучше работает для видео за счёт переиспользования информации о соседних кадрах. Эти технологии позволяют хранить видео в более компактном виде, восстанавливая недостающие детали по ходу воспроизведения.

Также решаются задачи генерации видео по текстовому описанию, что может использоваться в киноиндустрии для генерации эффектов, таких как взрывы, полёты и трансформации главных героев, вместо их фактического осуществления.

Поскольку видео - это последовательность изображений (фреймов), они часто обрабатываются свёрточными операциями, описанными в отдельном разделе, но которые задействуют не только пространственную, но и временную окрестность обрабатываемого фрейма.