Перейти к основному содержимому

Обучение представлений

Понятие представлений

Извлечение сложных высокоуровневых признаков, позволяющих компактно описать сложные зависимости в данных называется обучением представлений (representation learning) и представляет собой ключ к успешному применению моделей глубокого обучения. Много исследований посвящено подбору нейросетевых архитектур и методов их настройки, извлекающих более качественные представления.

Моделирование представлений мотивируется тем, что реальные объекты заполняют не всё признаковое пространство, а сосредоточены на некотором маломерном многообразии (manifold) в этом пространстве.

Пример

Рассмотрим пример чёрно-белых рукописных изображений 150x150. Эти изображения представляются в виде матрицы интенсивностей, поэтому размерность признакового пространства D=1502=22500D=150^2=22500, т.е. достаточно велика. Ниже показаны случайные объекты из этого пространства:

Как видим, случайные объекты совсем не похожи на рукописные цифры, как и на другие объекты природы, для которых интенсивность пикселей меняется плавно и постепенно.

Сканы рукописных цифр занимают лишь малую часть описанного выше пространства признаков и лежат на маломерном многообразии. На примере цифры 3 ниже можно предположить, что размерность этого многообразия невелика, а координаты в нём отвечают изменению расположения цифры и угла поворота. Также могут быть дополнительные степени свободы, отвечающие крупности цифры, жирности шрифта и манере написания.

В любом случае, размерность многообразия рукописных цифр невелика, и нейросети достигают отличных результатов в их распознавании за счёт явного моделирования этого многообразия промежуточными слоями.

Извлекаемые признаки

Рассмотрим задачу классификации объектов на изображениях. Исследования по визуализации нейронов, например [1], показывают что первые слои свёрточной нейросети, которую мы изучим далее, детектируют изменения цветов в определённом направлении, а последующие слои извлекают всё более и более сложные паттерны, как показано ниже:

Литература

  1. Zeiler M. D., Fergus R. Visualizing and understanding convolutional networks //Computer Vision–ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part I 13. – Springer International Publishing, 2014. – С. 818-833.