Преимуществом метрических методов является то, что их можно применять с любой функцией расстояния (distance function) между объектами ρ(x,z). По смыслу расстояние измеряет непохожесть объектов между собой, и его не надо путать с функцией похожести (similarity function) S(x,z), принимающей более высокие значения между более похожими объе ктами.
Взаимосвязь расстояния и похожести
Мы всегда можем преобразовать расстояние в похожесть и наоборот, применяя некоторую убывающую функцию K(⋅):
измеряющая косинус угла между векторами x и z, поэтому принимающая значения на отрезке [−1,1].
Согласно этой мере объекты близки, если угол между ними мал, а, соответственно, косинус этого угла близок к единице. Косинусная мера близости не зависит от длин сравниваемых векторов, что полезно в некоторых приложениях.
Для сравнения векторов, элементы которых сильно скоррелированы между собой, используется Евклидово расстояние, но не между исходными объектами x,z, а между их декоррелированными версиями:
Докажите, что x′ и z′ будут иметь нулевое среднее и единичную матрицу ковариаций, т.е. отдельные элементы векторов будут не скоррелированы между собой.
Графически процесс перевода из скоррелированного пространства (A) в декоррелированное (B) показан ниже:
В терминах исходных векторов это расстояние выражается как
ρ(x,z)=(x−z)TΣ−1(x−z)
и называется расстоянием Махаланобиса.
Задача
Докажите, что Евклидово расстояние между декореллированными версиями объектов x и z будет считаться по формуле выше.
В более общем случае расстояние можно определить через произвольную неотрицательно-определённую матрицу M, которую можно настраивать по данным (metric learning):