Обучение без учителя
Обучение без учителя (unsupervised learning) представляет собой задачу, в которой по вектору признаков требуется предсказать некоторые отклики , однако обучающая выборка состоит только из признаковых описаний для набора объектов:
Поскольку разметка для объектов отсутствует, то в качестве функции потерь выступает не эмпирический риск, а некоторая вручную подобранная эвристика, характеризующая желаемый результат. При этом выбор целевой эвристики существенно влияет на прогнозы модели.
Обычно в задачах обучения без учителя прогнозы строятся только для исходной выборки, однако могут возникать задачи, где требуется применение полученной модели и для новых объектов.
Рассмотрим примеры таких задач.
Кластеризация
В кластеризации (clustering) необходимо разбить объекты на группы (называемые кластерами) так, чтобы объекты, попавшие в одну группу были метрически похожими (расстояние между ними было небольшим), а объекты, попавшие в разные группы - метрически непохожими (удалёнными друг от друга). Ниже приведён пример кластеризации в двумерном при знаковом пространстве , где первый признак отложен вдоль оси X, а второй - вдоль оси Y. Объекты обучающей выборки показаны на графике слева. Поскольку выборка не размечена, то все точки обозначены чёрным цветом. В результате применения алгоритма кластеризации (график справа) объекты разбиваются на три кластера (красный, зеленый, си ний) так, что объекты из одинакового кластера похожи, а из разных - нет.
Алгоритмы кластеризации используются, например, когда необходимо разбить клиентов компании на отдельные группы со похожими характеристиками. Или необходимо разбить книги электронной библиотеки на категории по сходству их содержания. Также кластеризация применяется для генерации нового признака объекта (номер кластера, расстояние от объекта до центра его кластера) для повышения качества решения других задач обучения с учителем. При этом число кластеров может быть известно заранее или определяться автоматически.
Детекция аномалий
Поступающие на обработку объекты имеют некоторое распределение. Большинство объектов типичны (имеют высокую вероятность, согласно распределению объектов), но некоторые объекты могут оказаться нет ипичными (и иметь малую вероятность). Такие объекты лежат далеко от других объектов выборки. Выявление подобных нетипичных объектов называется обнаружением аномалий (anomaly detection) или детекцией выбросов (outlier detection).
Ниже приведён пример работы алгоритма по детекции выбросов в выборке, регулярные объекты которой помечены белым, а выбросы - красным.
Выбросы обычно получаются в результате ошибок измерения. Например, операционист при вводе информации о клиенте мог вбить лишнюю цифру, либо измеряющий сенсор мог испортиться и записать неверную информацию. В таких случаях детекция выбросов представляет собой важный этап предобработки данных - перед настройкой модели важно обнаружить все выбросы и исключить их из обучающей выборки, чтобы они не привели к смещению прогнозов модели. По смыслу - это задача обучения без учителя, поскольку невозможно заранее описать все типы ошибок.
Однако также бывает, что выбросы соответствуют реально существующим объектам в природе, которые требуют специальной обработки. Например, если каждый объект - вектор параметров работы станка (температура, потребление электричества, число оборотов двигателя и т.д.), снимаемых каждую минуту, то наблюдение-выброс может соответствовать ситуации, когда станок входит в опасный режим работы(например, из-за короткого замыкания в сети, пожара, перегрузки), что чреватого поломкой. И своевременное обнаружение позволит остановить работу станка досрочно, уменьшив размер ущерба. Здесь мы также сталкиваемся с задачей обучения без учителя, поскольку невозможно заранее описать все виды поломок и неправильных режимов работы.
Снижение размерности
Задача снижения размерности (dimensionality reduction) заключается в том, чтобы представить исходные многомерные объекты , лежащие в многомерном пространстве , в маломерные векторы из пространства , где . Это отображение должно сохранять геометрические свойства исходных объектов - если исходные объекты были близки, то и их образы также должны быть близки и наоборот - если были далеки, то и их образы тоже должны быть далеки друг от друга. По сути, снижение размерности переводит исходные, возможно избыточные, признаковые представления объектов в новые компактные признаковые представления без дублирования информации. Пример снижения размерности из 3-х мерного в 2-мерное пространство приведён ниже, где цвет обозначает множества похожих объектов (изначально не задан).