Перейти к основному содержимому

Обработка изображений

Рассмотрим основные задачи, возникающие в глубоком обучении при обработке изображений.

Классификация изображений (image classification) - задача, в которой по входному изображению необходимо классифицировать, что именно на нём изображено. Популярным приложением выступает медицина, где по снимку опухоли необходимо понять, доброкачественная она или злокачественная, как на рисунке ниже (источник)

Другим популярным применением классификации изображений является распознавание человека по лицу в системах безопасности. Классификации изображений посвящён отдельный раздел книги.

В семантической сегментации изображений (semantic segmentation) необходимо отнести к определённому классу не всё изображение целиком, а каждый его пиксель, получая в результате сегментационную карту, на которой размечено, где какие объекты расположены (источник):

В семантической сегментации разные объекты одного типа, такие как машины на рисунке, относятся к одному и тому же классу. Детальному изучению этой темы также посвящён отдельный раздел.

Существует и более сложная задача instance segmentation, описываемая в соответствующем разделе книги, в которой различные объекты одного и того же типа разделяются и помечаются разными цветами.

В детекции объектов (object detection) на входном изображении необходимо выделить рамками все объекты заданного типа, как показано ниже (источник) при выделении пешеходов, машин и велосипедистов:

Детекции объектов также посвящён отдельный раздел учебника.

Детекция объектов, а также связанные с ней семантическая и сегментация объектов часто используются в системах безопасности, при управлении транспортными потоками и в системах автоматического вождения.

В задаче оценки глубины изображения (depth estimation) по входному изображению нужно оценить расстояние до объекта в каждом пикселе изображения (источник).

Описание изображений (image captioning) - задача, в которой по изображению нужно выдать его текстовое описание. Часто используется в медицине для автоматической диагностики заболеваний, как показано ниже (источник):

Также эта задача активно используется в поиске изображений по текстовому запросу (чтобы конвертировать изображения в текст).

Отдельным классом задач является генерация изображений (image generation), обладающих заданными характеристиками.

В задаче супер-разрешения (super-resolution) по входному изображению в низком разрешении нужно сгенерировать его правдоподобную версию в более высоком разрешении (источник):

Эта технология активно применяется для улучшения размытых снимков, а также для повышения разрешающей способности при сильном риближении в цифровых фотоаппаратах, микроскопах и телескопах.

Перенос стиля (image style transfer) - задача, в которой входное изображение необходимо перекрасить в стиле, задаваемым другим изображением, в качестве которого обычно выступает картина известного художника (источник):

Она активно применяется в индустрии развлечений для создания выразительных спецэффектов. Существуют работы, использующие эту технологию для создания эскизов новых видов одежды.

Генерация изображения по текстовому описанию (text to image) - другая прикладная задача для создания иллюстраций и рекламных постеров. Пример работы показан ниже (источник):

Другими примерами генерации изображений выступают задачи:

  • удаления и замены фона
  • раскраски чёрно-белых изображений
  • заполнения испорченных фрагментов изображения (например, когда птица попала в кадр и загородила фотографируемый объект)

Отдельной интересной задачей является 3-D реконструкция (3-D reconstruction), в которой по серии 2-D снимков необходимо восстановить 3-D модель фотографируемого объекта (источник):

Это может использоваться для 3-D печати скульптуры фотографируемого объекта, определения его пространственных размеров (например для рекомендации одежды человеку или при расчёте технического задания при реконструкции зданий).

Стоит отметить, что фотографии для 3-D реконструкции используются для извлечения из них карты глубины (depth map), по которым в конечном счёте и строится 3-D модель. Эффективнее сразу замерять карту глубины, используя стереокамеру, либо по отражённой звуковой волне (эхолокация), радиоволне (радиолокация) или световой волне (используя лидар). Фотографии используются в случае, когда эти устройства недоступны.