Внутренние меры качества
Изучим внутренние меры оценки качества кластеризации (internal cluster validity measures), которые не используют информации о внешней разметке, а основаны только на геометрической структуре полученного кластерного разбиения.
Будем использовать следующие обозначения:
-
- число объектов, а - число признаков;
-
- общее число кластеров;
-
- индексы объектов -го кластера;
-
- количества объектов в каждом кластере;
-
- центроиды кластеров, вычисляемые как средние по объектам соответствующих кластеров;
-
- используемая функция расстояния
Далее будем считать, что сложность вычисления расстояния между объектами пропорциональна числу признаков , что выполняется для всех стандартных функций расстояния.
Компактность кластеров
Компактность кластеров (cluster cohesion) о пределяет, насколько близко объекты одного кластера расположены близко относительно друг друга или своего своего центра. Наиболее распространенным способом измерения компактности является сумма квадратов внутрикластерных расстояний (Within-cluster Sum of Squares, WSS):
Иногда компактность измеряют как среднее попарное расстояние между всеми объектами внутри кластера.
Обратим внимание, что первая мера имеет вычислительную сложность , в то время как вторая - уже .
При этом обе меры поощряют выпуклые сферические формы кластеров.
Представленные величины всегда уменьшаются при увеличении числа кластеров , достигая нуля, когда каждый объект становится отдельным кластером!
Отделимость кластеров
Отделимость кластеров (cluster separation) характеризует, насколько далеко кластеры находятся друг от друга в пространстве признаков. Качественная кластеризация должна порождать различимые группы.
Межкластерная сумма квадратов (Between-cluster Sum of Squares, BSS) является измеряет разброс центроидов относительно общего центра данных :
Размеры каждого кластера учитываются за счёт домножения расстояния на число объектов в кластере.
Минимальное межкластерное расстояние (minimum inter-cluster distance) характеризует «узкое место» кластеризации, выделяя самую неблагоприятно разделённую пару кластеров:
Этот метод чувствителен к локальным ошибкам кластеризации (слипанию отдельных групп). Одно случайное сближение двух малых кластеров может испортить оценку всего разбиения.
Среднее межкластерное расстояние (average inter-cluster distance) вычисляется как среднее арифметическое расстояний между всеми возможными парами центроидов:
Оно дает глобальную оценку разрозненности групп и менее чувствительна к случайному сближению отдельных групп. Однако если существует пара кластеров с сильно разнесёнными центроидами, это сделает всю оценку чересчур оптимистичной.
Взвешенное межкластерное расстояние (weighted inter-cluster distance) учитывает размер каждого кластера при оценке отделимости, оценивая в первую очередь разделимость крупных кластеров. Для этого в расчёте берётся взвешенное усреднение по числу объектов в каждом кластере:
Композитная мера качества
Для получения итоговой оценки разбиения компактность и отделимость объединяются в единую композитную меру в качестве которой выступает их отношение:
При этом если первая величина показывает качество разбиения, и её нужно максимизировать, то вторая - однор одность разбиения, и её нужно минимизировать.
Индекс Дэвиса-Болдуина
Индекс Дэвиса-Болдуина (Davies–Bouldin Index [1]) оценивает среднее сходство между кластерами, основываясь на отношении их внутренних размеров к расстоянию между ними. Сначала для каждого кластера вычисляется внутренний разброс каждого кластера как среднее расстояние от от его центроида до входящих в него объектов:
Затем для каждой пары кластеров и рассчитывается показатель их взаимного сходства . Он представляет собой сумму их внутренних разбросов, делённую на расстояние между их центроидами:
Для каждого кластера определяется значение , соответствующее максимальному сходству среди всех остальных кластеров (наихудший случай разделения):
Итоговый индекс Дэвиса-Болдуина вычисляется как среднее значение этих максимумов по всем кластерам:
Этот индекс вычисляется за при (типичный случай). Поскольку мера опирается на центроиды, она смещена в сторону поиска сферических и выпуклых кластеров.
Индекс Данна
Индекс Данна (Dunn Index [2]) является одной из классических композитных метрик, которая сопоставляет минимальное расстояние между кластер ами с их максимальным диаметром.
Для вычисления индекса сначала вводится понятие расстояния между двумя кластерами и :
Затем определяется диаметр кластера как максимальное расстояние между любыми двумя его объектами:
Итоговый индекс Данна рассчитывается как отношение минимального межкластерного расстояния к максимальному диаметру среди всех кластеров:
Чем выше значение индекса, тем качественнее считается кластеризация.
Метод не аппроксимирует расположение всего кластера его центроидом, поэтому способен корректно оценивать невыпуклые кластеры.
Однако он обладает повышенной чувствительностью к шуму в данных, поскольку и числитель и знаменатель определяются по одной паре точек.
Вычислительная сложность составляет .
Существуют и другие способы расчёта величин и .
Индекс Калинского-Харабаша
Индекс Калинского-Харабаша (Calinski-Harabasz Index [3]), также называемый критерием отношения дисперсий (variance ratio criterion), оценивает качество разбиения на основе отношения межкластеронго к внутрикластерному разбросу:
По сути, в мере Калинского-Харабаша, чтобы кластеры находились как можно дальше друг от друга, а объекты внутри них были максимально прижаты к своим центроидам.
Нормировка числителя и знаменателя производится с учётом степень свободы распределения величин.
Данная формула позволяет проводить вычисления за один проход по данным, что обеспечивает временную сложность .
Эта мера, как и предыдущие предвзята к выпуклости (сферичности) кластеров. Она может давать некорректно низкие оценки для групп сложной формы (например, вытянутых эллипсов или дуг), даже если они идеально отделены друг от друга.
Эквивалентная форма меры
Эквивалентно эту меру можно определить следующим образом:
Использованы следующие обозначения:
- число объектов и кластеров;
Матрица межкластерного разброса (between-cluster scatter matrix) характеризует дисперсию центроидов кластеров отно сительно общего центра данных:
Матрица внутрикластерного разброса (within-cluster scatter matrix) и характеризует дисперсию объектов внутри их кластеров:
обозначает след матрицы и равен сумме её элементов на главной диагонали:
Использование следа мотивировано тем, что для для симметричных матрицы межкластерного и внутрикластерного разброса (докажите симметричность!) след совпадает с суммой собственных значений матриц, а следовательно характеризует совокупный разброс в числовом виде.
Используя свойство линейности следа:
а также свойство
можно вывести эквивалентный численно эффективный способ расчёта меры Калинского-Харабаша:
Следовательно индекс эквивалентно можно записать в виде
Силуэт
Силуэт (Silhouette [4]) — это коэффициент , показывающий, насколько объект вписывается в собственный кластер по сравнению с ближайшим соседним кластером.
Для этого рассчитывается среднее расстояние от до объектов кластера , которому принадлежит:
Затем рассчитывается среднее расстояние до объектов ближайшего чужого кластера (которому не принадлежит):
Коэффициент силуэта объекта определяется как:
Коэффициент силуэта для оценки качества кластеризации всех объектов считается как средний силуэт по всем объектам выборки:
Коэффициент силуэта для отдельного объекта и для всей выборки принадлежит отрезку , причём соответствует наилучшей, а - наихудшей кластеризации. Мера поощряет выпуклую кластеризацию.
Вычислительная сложность расчёта этой меры составляет , что ограничивает применимость метода для больших выборок. В последнем случае коэффициент силуэта нужно приближённо вычислять по подвыборке либо использовать упрощённый индекс силуэта (simplified silhouette index [5]), в котором и вычисляются как расстояния до центроида своего и ближайшего чужого кластера:
В последнем случае сложность вычислений снижается до .
Литература
- Davies D. L., Bouldin D. W. A cluster separation measure //IEEE transactions on pattern analysis and machine intelligence. – 2009. – №. 2. – С. 224-227.
- Dunn J. C. Well-separated clusters and optimal fuzzy partitions // Journal of Cybernetics. — 1974. — Vol. 4, no. 1. — P. 95–104.
- Caliński T., Harabasz J. A dendrite method for cluster analysis //Communications in Statistics-theory and Methods. – 1974. – Т. 3. – №. 1. – С. 1-27.
- Rousseeuw, P. J. Silhouettes: A graphical aid to the interpretation and validation of cluster analysis // Journal of Computational and Applied Mathematics. 1987. Vol. 20. P. 53–65.
- Vendramin L., Campello R. J. G. B., Hruschka E. R. Relative clustering validity criteria: A comparative overview //Statistical analysis and data mining: the ASA data science journal. – 2010. – Т. 3. – №. 4. – С. 209-235.