Внешние метрики качества
Изучим внешние меры оценки качества кластеризации. Внешние метрики основаны на сопоставлении разбивки объектов на кластера с истинной разметкой (ground truth) на классы . Чем лучше соответствие между разбивкой объектов на классы и кластера, тем кластеризация считается лучше.
По сравнению с оценкой качества классификации, кластера могут нумероваться в произвольном порядке, и методы оценки качества кластеризации должны быть инвариантны к переупорядочиванию кластеров.
Будем использовать следующие обозначения:
-
- число объектов, а - число признаков;
-
- общее число кластеров;
-
- индексы объектов -го кластера;
-
- количества объектов в каждом кластере;
-
- центроиды кластеров, вычисляемые как средние по объектам соответствующих кластеров;
-
- используемая функция расстояния
Далее будем считать, что сложность вычисления расстояния между объектами пропорциональна числу признаков , что выполняется для всех стандартных функций расстояния.
Матрица сопряжённости
Матрица сопряжённости (contingency matrix) — это таблица, используемая для детального сопоставления результатов кластеризации с истинной разметкой данных на классы. Пусть — количество объектов, принадлежащих истинному классу и отнесённых алгоритмом к кластеру :
Рассмотрим случай, когда объектов двух классов были распределены по трём кластерам. Первый кластер при этом оказался малочисленным и не содержит ярко выраженного дом инирующего класса (группа объектов, которые алгоритм не смог однозначно соотнести с основными ядрами).
Кластер 1 Кластер 2 Кластер 3 Класс 1 3 44 3 Класс 2 2 4 44 Анализ таблицы показывает:
- Кластер 1 является малочисленным и нерелевантным: в него попало всего 5 объектов из 100, и он не помогает в идентификации структуры классов.
- Кластер 2 успешно захватил основную массу объектов первого класса (44 объекта).
- Кластер 3 почти идеально выделил второй класс (44 объекта).
Точность кластеризации
Для сведения матрицы сопряжённости к единому числу используется точность кластеризации (unsupervised clustering accuracy, UCA). Поскольку в обучении без учителя номера кластеров назначаются произвольно, мы не можем просто посчитать долю объектов на диагонали. Необходимо найти такое оптимальное сопоставление меток кластеров и классов, которое максимизирует итоговую точность.
Точность определяется как максимальное количество верно соотнесённых объектов среди всех возможных перестановок номеров кластеров :
Для примера выше оптимальное соответствие: Кластер 2 Класс 1, Кластер 3 Класс 2. Кластер 1 при любом сопоставлении даст лишь незначительное количество верных или ошибочных предсказаний, которые не изменят общую картину.
В качестве алгоритма сопоставления обычно используется специальный венгерский алгоритм [1], решающий задачу о назначениях за полиномиальное время.
Матрица парных совпадений
В некоторых случаях при оценке качества кластеризации более эффективно анализировать не распределение отдельных объектов по группам, а то, как алгоритм сохранил связи между парами объектов.
Каждая пара объектов относится к одной из четырёх категорий:
- TP (True Positive): пара объектов одного класса, отнесённая к одному кластеру.
- TN (True Negative): пара объектов разных классов, отнесённая к разным кластерам.
- FP (False Positive): пара объектов разных классов, отнесённая к одному кластеру (ошибка «слипания»).
- FN (False Negative): пара объектов одного класса, отнесённая к разным кластерам (ошибка «дробления»).
Для этого используется матрица парных совпадений (pair confusion matrix).
| Объекты в одном кластере | Объекты в разных кластерах | |
|---|---|---|
| Объекты одного класса | ||
| Объекты разных классов |
Сумма всех элементов таблицы равна общему числу из уникальных пар.
Более высокое качество кластеризации соответствует случаям, когда сумма диагональных элементов максимальна, а сумма внедиагональных элементов мала.
При этом ана лиз внедиагональных элементов позволяет делать выводы об источниках проблем:
-
Высокое свидетельствует о слиянии разных классов (under-clustering), и в таком случае нужно увеличить число кластеров или ужесточить критерии вхождения объекта в группу.
-
Высокое свидетельствует об избыточном дроблении классов (over-clustering), и в таком случае нужно уменьшить количество кластеров или использовать более «мягкие» меры сходства.
Далее рассмотрим основные способы сведения элементов матрицы попарных совпадений в единую числовую меру качества.
Индекс Ранда
Индекс Ранда (Rand Index, RI [2]) определяет долю пар объектов, по которым мнения алгоритма и эксперта совпали:
Скорректированный индекс Ранда
Скорректированный индекс Ранда (Adjusted Rand Index, ARI [3]) вводит поправку на вероятность случайного совпадения пар, поскольку для более точного расчёта нам необходимо нормировать результат так, чтобы для случайного разбиения ожидаемое значение индекса было равно 0, а для идеального — 1.
Он считается по формуле
где — математическое ожидание индекса Ранда для случайного случая, а — максимально возможное значение индекса Ранда, которо е всегда равно 1.
Индекс Фолкса-Мэллоуза
Индекс Фолкса-Мэллоуза (Fowlkes-Mallows Index, FMI [4]) представляет собой среднее геометрическое точности и полноты, вычисленных на парах объектов:
Мера полезна, когда нужно проигнорировать пары TN, количество которых в разреженных данных или данных с большим числом классов может быть избыточным и завышать индекс Рэнда.
Индекс принимает значения на отрезке , причём 1 соответствует наилучшей кластеризации, а 0 - наихудшей.
Для смещения баланса в сторону оценки точности или полноты индекс Фолкса — Мэллоуза обобщается через взвешенное среднее геометрическое:
Параметр определяет приоритет одной из составляющих, а при формула возвращается к классическому виду .
Выбор веса зависит от того, какая ошибка критичнее для конкретной задачи:
-
Приоритет точности (): важнее чистота кластеров, когда нежелательно смешивать разные классы.
-
Приоритет полноты (): важнее целостное восстановление классов, когда нежелательно дробление класса на части.
:::
Коэффициент Жаккара
Коэффициент Жаккара (Jaccard Index [5]), как и индекс Фолкса-Мэллоуза фокусируется исключительно на положительных совпадениях в структуре, игнорируя пары TN. Он вычисляет меру похожести Жаккара между множествами пар объектов, которые отнесены к одному объекту и к одному кластеру и вычисляется по формуле:
Какая мера всегда не ниже другой - коэффициент Жаккара или индекс Фолкса-Мэллоуза?
Коэффициент Жаккара принимает значения на отрезке , причём 1 соответствует наилучшей кластеризации, а 0 - наихудшей.
V-мера
V-мера (V-measure [6]) — это среднее гармоническое между двумя характеристиками: гомогенностью и полнотой, каждая из которых по-своему оценивает качество кластеризации:
Здесь — мера гомогенности (homogeneity), а — мера полноты (completeness). Если , то больший вес придаётся полноте, если — гомогенности. По умолчанию используется .
Гомогенность
Гомогенность (homogeneity) определяет, насколько каждый кластер состоит из объектов, принадлежащих только одному классу. Результат считается идеально гомогенным, если каждый кластер состоит из объектов только одного класса. Пусть — энтропия распределения классов, а — условная энтропия классов при условии распределения по кластерам:
Если каждый кластер содержит объекты только одного класса, то и гомогенность максимальна и равна 1.
Гомогенность легко сделать равной единице, если каждый объект поместить с индивидуальный кластер! Чтобы не находить подобных вырожденных решений используется вторая мера - полнота.
Полнота
Полнота (completeness) измеряет, насколько все объекты, принадлежащие к одному классу, отнесены к одному и тому же кластеру. Результа т считается идеально полным, если каждый класс содержится лишь в одном кластере. Пусть — энтропия распределения кластеров, а — условная энтропия кластеров при условии истинных классов:
Если все объекты каждого класса попали в свои уникальные кластеры, то и полнота принимает максимальное значение 1.
Если ориентироваться только на полноту, то тривиальным решением будет поместить все объекты в один кластер. в таком случае полагается равной 1, чтобы избежать деления на ноль, и мы получаем максимальное значение меры.
Поэтому полнота используется только в паре с гомогенностью.
Метрики на основе взаимной информации
Если нам известна истинная разметка объектов по классам и результат работы алгоритма в виде разбиения на кластеры, мы можем использовать теоретико-информационный подход для оценки их соответствия.
Введём вероятностные обозначения для разбиения объектов на истинные классы и предсказанные кластеры :
-
— вероятность того, что случайно выбранный объект принадлежит классу ;
-
— вероятность того, что случайно выбранный объект принадлежит кластеру ;
-
— совместная вероятность того, что объект принадлежит классу и кластеру одновременно;
-
— условная вероятность принадлежности к классу при условии, что объект попал в кластер .
Взаимная информация (MI)
Взаимная информация (Mutual Information, MI) измеряет степень зависимости между распределением объектов по классам и их распределением по кластерам.
Мера показывает, какое количество информации об истинных классах содержится в кластерах и, наоборот, количество информации о кластерах, содержащихся в кластерах (мера симметрична). В терминах совместных вероятностей она записывается следующим образом:
Эту же величину можно выразить через разность безусловной и условной энтропии:
Где — неопределенность принадлежности к классам, а — неопределенность классов после того, как стало известно разбиение по кластерам:
Мера принимает значения в диапазоне . Значение означает полную независимость разбиений.
Нормированная взаимная информация (NMI)
Нормированная взаимная информация (Normalized Mutual Information, NMI) — это версия MI, приведенная к стандартному диапазону [0,1] за счёт нормализации:
Здесь — функция агрегации энтропий, для которой доступны следующие варианты:
- минимальная:
- максимальная:
- геометрическая:
- арифметическая:
Для любого вида агрегации NMI будет принадлежать , а значение 1 будет достижимо только для агрегации минимумом.
Скорректированная взаимная информация (AMI)
Скорректированная взаимная информация (Adjusted Mutual Information, AMI [7]) вводит поправку на случайность, что делает её более надежной для задач с большим числом кластеров. Обычные MI и NMI имеют тенденцию увеличиваться при росте количества кластеров , даже если объекты распределены случайно.
Она вычисляется следующим образом:
где — ожидаемое значение взаимной информации для случайных меток.
Верхняя граница меры равна 1. При этом значение может быть и отрицательным, если кластеризация окажется хуже случайной.
Литература
- Wikipedia: Венгерский алгоритм.
- Rand W. M. Objective criteria for the evaluation of clustering methods //Journal of the American Statistical association. – 1971. – Т. 66. – №. 336. – С. 846-850.
- Wikipedia: Rand index.
- Wikipedia: Fowlkes–Mallows index.
- Wikipedia: Jaccard index.
- Rosenberg A., Hirschberg J. V-measure: A conditional entropy-based external cluster evaluation measure //Proceedings of the 2007 joint conference on empirical methods in natural language processing and computational natural language learning (EMNLP-CoNLL). – 2007. – С. 410-420.
- Vinh N. X., Epps J., Bailey J. Information Theoretic Measures for Clusterings Comparison: Variants, Properties, Normalization and Correction for Chance // Journal of Machine Learning Research. — 2010. — Vol. 11. — P. 2837–2854.