Обработка изображений

Рассмотрим основные задачи, возникающие в глубоком обучении при обработке изображений с помощью нейросетей.

Разметка изображений

При разметке изображений выходом модели будет высокоуровневая семантическая информация об объектах на изображении.

Классификация изображений (image classification [1]) - задача, в которой по входному изображению необходимо классифицировать, что именно на нём изображено. Популярным приложением выступает медицина, где по снимку опухоли необходимо понять, доброкачественная она или злокачественная, как на рисунке ниже [2]:

Другим популярным применением классификации изображений является распознавание человека по лицу в системах безопасности. Классификации изображений посвящён отдельный раздел книги.

В семантической сегментации изображений (semantic segmentation [3]) необходимо отнести к определённому классу не всё изображение целиком, а каждый его пиксель, получая в результате сегментационную карту, на которой размечено, где какие объекты расположены (источник):

В семантической сегментации разные объекты одного типа, такие как машины на рисунке, относятся к одному и тому же классу. Детальному изучению этой темы также посвящён отдельный раздел.

Существует и более сложная задача сегментации объектов (instance segmentation), описываемая в соответствующем разделе книги, в которой различные объекты одного и того же типа (например, разные люди или разные машины) разделяются и помечаются разными метками.

В детекции объектов (object detection [4]) на входном изображении необходимо выделить рамками все объекты заданного типа, как показано ниже (источник) при выделении пешеходов, машин и велосипедистов:

Детекции объектов также посвящён отдельный раздел учебника.

Детекция объектов, а также связанные с ней семантическая и сегментация объектов часто используются в системах безопасности, при управлении транспортными потоками и в системах автоматического вождения.

В задаче оценки глубины изображения (depth estimation [5]) по входному изображению нужно оценить расстояние до объекта в каждом пикселе изображения [6]:

Описание изображений (image captioning [7]) - задача, в которой по изображению необходимо сгенерировать его текстовое описание. Оно часто используется в медицине для автоматической диагностики заболеваний, как показано ниже [8]:

Также эта задача активно используется в поиске изображений по текстовому запросу для предварительной конвертации изображения в текст.

Генерация изображений

В задачах генерации изображений (image generation) требуется сгенерировать изображение, обладающее заданными свойствами.

В задаче супер-разрешения (super-resolution [9]) по входному изображению в низком разрешении нужно сгенерировать его правдоподобную версию в более высоком разрешении (источник):

Эта технология активно применяется для улучшения размытых снимков, а также для повышения разрешающей способности при сильном приближении в цифровых фотоаппаратах, микроскопах и телескопах.

Перенос стиля (image style transfer [10]) - задача, в которой входное изображение необходимо перерисовать в стиле, задаваемым другим изображением, в качестве которого обычно выступает картина известного художника (источник):

Эта задача сложнее, чем перекраска изображений (image recoloring), поскольку требует переноса не только стилевых цветов, но и характерных стилевых паттернов, таких как мазки кисти художника.

Эта задача активно применяется в индустрии развлечений, дизайне и рекламе для создания выразительных спецэффектов. А в [11] эту технологию применили для разработки новых видов одежды.

Генерация изображения по текстовому описанию (text to image [12]) - другая прикладная задача для создания иллюстраций и рекламных постеров. Пример работы показан ниже [6]:

Другими примерами генерации изображений выступают следующие задачи:

удаление и замена фона (background removal/replacement);
раскраска чёрно-белых изображений (image coloring);
заполнение испорченных фрагментов изображения (image inpainting), например, когда птица попала в кадр и закрыла часть фотографируемого объекта.

3D-реконструкция

Отдельной интересной задачей является 3D-реконструкция (3D reconstruction), в которой по серии 2D-снимков необходимо восстановить 3D-модель фотографируемого объекта (источник):

Это может использоваться для 3D-печати скульптуры фотографируемого объекта, определения его пространственных размеров (например, для рекомендации одежды человеку или при расчёте технического задания при реконструкции зданий).

Обработка изображений

Разметка изображений​

Генерация изображений​

3D-реконструкция​

Литература​

Разметка изображений

Генерация изображений

3D-реконструкция

Литература