Обработка изображений
Рассмотрим основные задачи, возникающие в глубоком обучении при обработке изображений с помощью нейросетей.
Разметка изображений
При разметке изображений выходом модели будет высокоуровневая семантическая информация об объектах на изображении.
Классификация изображений (image classification [1]) - задача, в которой по входному изображению необходимо классифицировать, что именно на нём изображено. Популярным приложением выступает медицина, где по снимку опухоли необходимо понять, доброкачественная она или злокачественная, как на рисунке ниже [2]:
Другим популярным применением классификации изображений является распознавание человека по лицу в системах безопасности. Классификации изображений посвящён отдельный раздел книги.
В семантической сегментации изображений (semantic segmentation [3]) необходимо отнести к определённому классу не всё изображение целиком, а каждый его пиксель, получая в результате сегментационную карту, на которой размечено, где какие объекты расположены (источник):
В семантической сегментации разные объекты одного типа, такие как машины на рисунке, относятся к одному и тому же классу. Детальному изучению этой темы та кже посвящён отдельный раздел.
Существует и более сложная задача сегментации объектов (instance segmentation), описываемая в соответствующем разделе книги, в которой различные объекты одного и того же типа (например, разные люди или разные машины) разделяются и помечаются разными метками.
В детекции объектов (object detection [4]) на входном изображении необходимо выделить рамками все объекты заданного типа, как показано ниже (источник) при выделении пешеходов, машин и велосипедистов:
Детекции объектов также посвящён отдельный раздел учебника.
Детекция объектов, а также связанные с ней семантическая сегментация и сегментация объектов часто используются в системах безопасности, при управлении транспортными пот оками и в системах автоматического вождения.
В задаче оценки глубины изображения (depth estimation [5]) по входному изображению нужно оценить расстояние до объекта в каждом пикселе изображения [6]:
Описание изображений (image captioning [7]) - задача, в которой по изображению необходимо сгенерировать его текстовое описание. Оно часто используется в медицине для автоматической диагностики заболеваний, как показано ниже [8]:
Также эта задача активно используется в поиске изображений по текстовому запросу для предварительной конвертации изображения в текст.