Перейти к основному содержимому

Методы оценки качества кластеризации

После проведения кластеризации важно уметь оценивать её качество. Это позволит выбрать лучший алгоритм и подобрать под него оптимальные гиперпараметры.

Если кластеризация является промежуточным этапом решения внешней задачи (например, сжатия данных или генерации промежуточных признаков), то её качество оценивают по качеству решения конечной задачи.

В остальных случаях подходы разделяют в зависимости от наличия внешней разметки на истинные группы, которые мы будем называть классами.

Если классы известны, то методы оценки основываются на качестве соответствия между кластерами и классами (partition matching) и называются внешними мерами качества.

Инвариантность к перенумерации кластеров

Мера оценки качества соответствия должна быть инвариантной к перенумерации кластеров, поскольку изменение порядка кластеров будет приводить по сути к тому же разбиению на кластеры!

Подбор метода кластеризации, используя внешнюю разметку на классы имеет смысл лишь когда эту разметку содержит лишь малая часть объектов. В противном случае эффективнее решать задачу напрямую классическими методами классификации.

Однако более распространена ситуация, когда внешняя разметка полностью отсутствует. В этом случае используются внутренние меры качества, основанные на фундаментальных принципах кластеризации, согласно которым:

  • объекты одного кластера должны быть метрически похожи друг на друга, то есть кластеры должны обладать свойством компактности;
  • объекты разных кластеров должны быть метрически непохожи, то есть кластера должны обладать высокой разделимостью.

Можно по разному определять компактность и разделимость. Итоговые методы оценки качества основаны на расчёте этих мер и их противопоставлении друг другу.