Метрические методы
Метрические методы прогнозирования - это методы, прогнозы которых определяются только расстояниями между целевым объектом, для которого строится прогноз, и некоторыми другими объектами , полученными из обучающей выборки. Таким образом, прогноз ищется в виде:
где - функция, вычисляющая расстояние (непохожесть) между объектами и , а - значения откликов на объектах . По смыслу прогнозная функция предсказывает отклик агрегацией откликов среди некоторых обучающих объектов, максимально похожих на целевой объект.
Ключевое предположение метрического метода - что близким объектам соответствуют близкие отклики. Если отклик действительно определяется выбранными признаками и зависит от них непрерывным образом, то это предположение весьма естественно.
Недостатком метода является сложный способ вычисления прогноза - в общем случае он зависит от всех объектов обучающей выборки, хотя набор можно выбирать небольшим, но репрезентативным для всех объектов.
Достоинством метода является его обобщаемость на любую функцию расстояния. Варьируя способ вычисления расстояния между объектами , мы будем получать различные версии одного и того же метода.
Рассмотрим для примера две задачи задачи с одинаковыми входными данными:
-
по фото человека определить, кто именно на нём изображён (независимо от позы)
-
по фото человека определить его позу (независимо от того, кого фотографировали)
Эти две противоположные во многом задачи можно решать одним и тем же методом, лишь варьируя функцию расстояния!
Более того, функцию расстояния можно параметризовать некоторым вектором параметров
а дальше настраивать вид расстояния, который больше всего подходит под нашу задачу, что известно как обучение расстояния (metric learning).
Обычные методы машинного обучения используют признаковое описание объектов в виде вектора признаков фиксированного размера. Если сами объекты при этом могут иметь произвольный размер (например, тексты могут иметь произвольную длину, графы - произвольное число вершин и рёбер), то такое представление объектов векторами фиксированного размера будет приводить к потере информации, что будет отражаться и на точности прогнозов.
Если же мы определим функцию расстояния над исходным представлением объектов (а не сокращенным в виде вектора признаков), то сможем избежать потери информации, поскольку прогноз будет зависеть только от попарных расстояний между объектами. Например, мы модем определить расстояние между строками произвольной длины как минимальное число вставок/удалений и замен одного символа другим, необходимых для перевода одной строки в другую - так называемое редакторское расстояние или расстояние Левенштейна (edit distance, Levenstein distance). Его можно определить и для графов произвольного размера и других типов данных.