Перейти к основному содержимому

Обработка изображений

Рассмотрим основные задачи, возникающие в глубоком обучении при обработке изображений.

Классификация изображений (image classification) - задача, в которой по входному изображению необходимо классифицировать, что именно на нём изображено. Популярным приложением выступает медицина, где по снимку опухоли необходимо понять, доброкачественная она или злокачественная, как на рисунке ниже (источник):

Другим популярным применением классификации изображений является распознавание человека по лицу в системах безопасности. Классификации изображений посвящён отдельный раздел книги.

В семантической сегментации изображений (semantic segmentation) необходимо отнести к определённому классу не всё изображение целиком, а каждый его пиксель, получая в результате сегментационную карту, на которой размечено, где какие объекты расположены (источник):

В семантической сегментации разные объекты одного типа, такие как машины на рисунке, относятся к одному и тому же классу. Детальному изучению этой темы также посвящён отдельный раздел.

Существует и более сложная задача сегментации объектов (instance segmentation), описываемая в соответствующем разделе книги, в которой различные объекты одного и того же типа разделяются и помечаются разными цветами.

В детекции объектов (object detection) на входном изображении необходимо выделить рамками все объекты заданного типа, как показано ниже (источник) при выделении пешеходов, машин и велосипедистов:

Детекции объектов также посвящён отдельный раздел учебника.

Детекция объектов, а также связанные с ней семантическая и сегментация объектов часто используются в системах безопасности, при управлении транспортными потоками и в системах автоматического вождения.

В задаче оценки глубины изображения (depth estimation) по входному изображению нужно оценить расстояние до объекта в каждом пикселе изображения (источник).

Описание изображений (image captioning) - задача, в которой по изображению нужно выдать его текстовое описание. Часто используется в медицине для автоматической диагностики заболеваний, как показано ниже (источник):

Также эта задача активно используется в поиске изображений по текстовому запросу (чтобы конвертировать изображения в текст).

Отдельным классом задач является генерация изображений (image generation), обладающих заданными характеристиками.

В задаче супер-разрешения (super-resolution) по входному изображению в низком разрешении нужно сгенерировать его правдоподобную версию в более высоком разрешении (источник):

Эта технология активно применяется для улучшения размытых снимков, а также для повышения разрешающей способности при сильном приближении в цифровых фотоаппаратах, микроскопах и телескопах.

Перенос стиля (image style transfer) - задача, в которой входное изображение необходимо перекрасить в стиле, задаваемым другим изображением, в качестве которого обычно выступает картина известного художника (источник):

Она активно применяется в индустрии развлечений для создания выразительных спецэффектов. Существуют работы, использующие эту технологию для создания эскизов новых видов одежды.

Генерация изображения по текстовому описанию (text to image) - другая прикладная задача для создания иллюстраций и рекламных постеров. Пример работы показан ниже (источник):

Другими примерами генерации изображений выступают задачи:

  • удаления и замены фона;
  • раскраски чёрно-белых изображений;
  • заполнения испорченных фрагментов изображения (например, когда птица попала в кадр и закрыла часть фотографируемого объекта).

Отдельной интересной задачей является 3D-реконструкция (3D reconstruction), в которой по серии 2D-снимков необходимо восстановить 3D-модель фотографируемого объекта (источник):

Это может использоваться для 3D-печати скульптуры фотографируемого объекта, определения его пространственных размеров (например для рекомендации одежды человеку или при расчёте технического задания при реконструкции зданий).

Стоит отметить, что фотографии для 3D-реконструкции используются для извлечения из них карты глубины (depth map), по которым в конечном счёте и строится 3D-модель. Эффективнее сразу замерять карту глубины, используя стереокамеру, либо по отражённой звуковой волне (эхолокация), радиоволне (радиолокация) или световой волне (используя лидар). Фотографии используются в случае, когда эти устройства недоступны.