Функции расстояния
Преимуществом метрических методов является то, что их можно применять с любой функцией расстояния (distance function) между объектами . По смыслу расстояние измеряет непохожесть объектов между собой, и его не надо путать с функцией похожести (similarity function) , принимающей более высокие значения между более похожими объектами.
Мы всегда можем преобразовать расстояние в похожесть и наоборот, применяя некоторую убывающую функцию :
Например, или .
Сравнение векторов вещественных чисел
Если , то часто используются следующие функции расстояния:
| Название | |
|---|---|
| Евклидово | |
| (Манхэттенская) | |
| Канберра | |
| Ланса-Уильямса |
Косинусная мера близости
Очень популярна косинусная мера близости [1]:
измеряющая косинус угла между векторами и , поэтому принимающая значения на отрезке .
Согласно этой мере объекты близки, если угол между ними мал, а, соответственно, косинус этого угла близок к единице. Косинусная мера близости не зависит от длин сравниваемых векторов (докажите!).
Это полезно в некоторых приложениях, таких как анализ текстов, кодируемых счётчиками встречаемости в них слов. Если продублировать документ, то счётчики всех слов увеличатся вдвое, как и длина вектора признаков, кодирующего документ. Поскольку дублирование текста не оказывает влияние на смысл документа, то оно не должно изменять попарные расстояния между документами, что и наблюдается для косинусной меры близости.