Обработка изображений
Рассмотрим основные задачи, возникающие в глубоком обучении при обработке изображений.
Классификация изображений (image classification) - задача, в которой по входному изображению необходимо классифицировать, что именно на нём изображено. Популярным приложением выступает медицина, где по снимку опухоли необходимо понять, доброкачественная она или злокачественная, как на рисунке ниже (источник):
Другим популярным применением классификации изображений является распознавание человека по лицу в системах безопасности. Классификации изображений посвящён отдельный раздел книги.
В семантической сегментации изображений (semantic segmentation) необходимо отнести к определённому классу не всё изображение целиком, а каждый его пиксель, получая в результате сегментационную карту, на которой размечено, где какие объекты расположены (источник):
В семантической сегментации разные объекты одного типа, такие как машины на рисунке, относятся к одному и тому же классу. Детальному изучению этой темы также посвящён отдельный раздел.
Существует и более сложная задача сегментации объектов (instance segmentation), описываемая в соответствующем разделе книги, в которой различные объекты одного и того же типа разделяются и помечаются разными цветами.
В детекции объектов (object detection) на входном изображении необходимо выделить рамками все объекты заданного типа, как показано ниже (источник) при выделении пешеходов, машин и велосипедистов:
Детекции объектов также посвящён отдельный раздел учебника.
Детекция объектов, а также связанные с ней семантическая и сегментация объектов часто используются в системах безопасности, при управлении транспортными потоками и в системах автоматического вождения.
В задаче оценки глубины изображения (depth estimation) по входному изображению нужно оценить расстояние до объекта в каждом пикселе изображения (источник).
Описание изображений (image captioning) - задача, в которой по изображению нужно выдать его текстовое описание. Часто используется в медицине для автоматической диагностики заболеваний, как показано ниже (источник):
Также эта задача активно используется в поиске изображений по текстовому запросу (чтобы конвертировать изображения в текст).
Отдельным классом задач является генерация изображений (image generation), обладающих заданными характеристиками.
В задаче супер-разрешения (super-resolution) по входному изображению в низком разрешении нужно сгенерировать его правдоподобную версию в более высоком разрешении (источник):
Эта технология активно применяется для улучшения размытых снимков, а также для повышения разрешающей способности при сильном приближении в цифровых фотоаппаратах, микроскопах и телескопах.
Перенос стиля (image style transfer) - задача, в которой входное изображение необходимо перекрасить в стиле, задаваемым другим изображением, в качестве которого обычно выступает картина известного художника (источник):
Она активно применяется в индустрии развлечений для создания выразительных спецэффектов. Существуют работы, использующие эту технологию для создания эскизов новых видов одежды.
Генерация изображения по текстовому описанию (text to image) - другая прикладная задача для создания иллюстраций и рекламных постеров. Пример работы показан ниже (источник):
Другими примерами генерации изображений выступают задачи:
- удаления и замены фона;
- раскраски чёрно-белых изображений;
- заполнения испорченных фрагментов изображения (например, когда птица попала в кадр и закрыла часть фотографируемого объекта).
Отдельной интересной задачей является 3D-реконструкция (3D reconstruction), в которой по серии 2D-снимков необходимо восстановить 3D-модель фотографируемого объекта (источник):
Это может использоваться для 3D-печати скульптуры фотографируемого объекта, определения его пространственных размеров (например для рекомендации одежды человеку или при расчёте технического задания при реконструкции зданий).
Стоит отметить, что фотографии для 3D-реконструкции используются для извлечения из них карты глубины (depth map), по которым в конечном счёте и строится 3D-модель. Эффективнее сразу замерять карту глубины, используя стереокамеру, либо по отражённой звуковой волне (эхолокация), радиоволне (радиолокация) или световой волне (используя лидар). Фотографии используются в случае, когда эти устройства недоступны.