Перейти к основному содержимому

Обработка изображений

Рассмотрим основные задачи, возникающие в глубоком обучении при обработке изображений с помощью нейросетей.

Разметка изображений

При разметке изображений выходом модели будет высокоуровневая семантическая информация об объектах на изображении.

Классификация изображений (image classification [1]) - задача, в которой по входному изображению необходимо классифицировать, что именно на нём изображено. Популярным приложением выступает медицина, где по снимку опухоли необходимо понять, доброкачественная она или злокачественная, как на рисунке ниже [2]:

Другим популярным применением классификации изображений является распознавание человека по лицу в системах безопасности. Классификации изображений посвящён отдельный раздел книги.

В семантической сегментации изображений (semantic segmentation [3]) необходимо отнести к определённому классу не всё изображение целиком, а каждый его пиксель, получая в результате сегментационную карту, на которой размечено, где какие объекты расположены (источник):

В семантической сегментации разные объекты одного типа, такие как машины на рисунке, относятся к одному и тому же классу. Детальному изучению этой темы также посвящён отдельный раздел.

Существует и более сложная задача сегментации объектов (instance segmentation), описываемая в соответствующем разделе книги, в которой различные объекты одного и того же типа (например, разные люди или разные машины) разделяются и помечаются разными метками.

В детекции объектов (object detection [4]) на входном изображении необходимо выделить рамками все объекты заданного типа, как показано ниже (источник) при выделении пешеходов, машин и велосипедистов:

Детекции объектов также посвящён отдельный раздел учебника.

Детекция объектов, а также связанные с ней семантическая сегментация и сегментация объектов часто используются в системах безопасности, при управлении транспортными потоками и в системах автоматического вождения.

В задаче оценки глубины изображения (depth estimation [5]) по входному изображению нужно оценить расстояние до объекта в каждом пикселе изображения [6]:

Описание изображений (image captioning [7]) - задача, в которой по изображению необходимо сгенерировать его текстовое описание. Оно часто используется в медицине для автоматической диагностики заболеваний, как показано ниже [8]:

Также эта задача активно используется в поиске изображений по текстовому запросу для предварительной конвертации изображения в текст.

Генерация изображений

В задачах генерации изображений (image generation) требуется сгенерировать изображение, обладающее заданными свойствами.

В задаче супер-разрешения (super-resolution [9]) по входному изображению в низком разрешении нужно сгенерировать его правдоподобную версию в более высоком разрешении (источник):

Эта технология активно применяется для улучшения размытых снимков, а также для повышения разрешающей способности при сильном приближении в цифровых фотоаппаратах, микроскопах и телескопах.

Перенос стиля (image style transfer [10]) - задача, в которой входное изображение необходимо перерисовать в стиле, задаваемым другим изображением, в качестве которого обычно выступает картина известного художника (источник):

Эта задача сложнее, чем перекраска изображений (image recoloring), поскольку требует переноса не только стилевых цветов, но и характерных стилевых паттернов, таких как мазки кисти художника.

Эта задача активно применяется в индустрии развлечений, дизайне и рекламе для создания выразительных спецэффектов. А в [11] эту технологию применили для разработки новых видов одежды.

Генерация изображения по текстовому описанию (text to image [12]) - другая прикладная задача для создания иллюстраций и рекламных постеров. Пример работы показан ниже [6]:

Другими примерами генерации изображений выступают следующие задачи:

  • удаление и замена фона (background removal/replacement);
  • раскраска чёрно-белых изображений (image coloring);
  • заполнение испорченных фрагментов изображения (image inpainting), например, когда птица попала в кадр и закрыла часть фотографируемого объекта.

3D-реконструкция

Отдельной интересной задачей является 3D-реконструкция (3D reconstruction), в которой по серии 2D-снимков необходимо восстановить 3D-модель фотографируемого объекта (источник):

Это может использоваться для 3D-печати скульптуры фотографируемого объекта, определения его пространственных размеров (например, для рекомендации одежды человеку или при расчёте технического задания при реконструкции зданий).

Литература

  1. paperswithcode.com: Image Classification.

  2. Harris C., Okorie U., Makrogiannis S. Spatially localized sparse approximations of deep features for breast mass characterization //Mathematical biosciences and engineering: MBE. – 2023. – Т. 20. – №. 9. – С. 15859.

  3. ibm.com: What is semantic segmentation?

  4. ibm.com: What is object detection?

  5. paperswithcode.com: Depth Estimation.

  6. Prince S. J. D. Understanding deep learning. – MIT press, 2023.

  7. paperswithcode.com: Image Captioning.

  8. Li H. et al. Research on chest radiography recognition model based on deep learning //Math. Biosci. Eng. – 2022. – Т. 19. – С. 11768-11781.

  9. Wikipedia: Super-resolution imaging.

  10. paperswithcode.com: Style Transfer.

  11. Ganesan A. et al. Fashioning with networks: Neural style transfer to design clothes //arXiv preprint arXiv:1707.09899. – 2017.

  12. Wikipedia: Text-to-image model.