Кластеризация данных
Постановка задачи
Кластеризация — это разбиение объектов на группы, такие что:
- внутри групп объекты метрически похожи;
- объекты из разных групп метрически непохожи.
Метрическая похожесть определяется согласно дополнительно вводимой функции расстояния , измеряющей степень непохожести объектов друг на друга.
Чаще всего используется Евклидово расстояние или его квадрат, но строго говоря выбор расстояния диктуется логикой задачи. Используя разные функции мы будем получать разные результаты кластеризации!
Это задача обучения без учителя (unsupervised learning), так как в классической постановке здесь нет правильных ответ ов.
Пример входных данных и результата из разбиения на кластеры показан ниже:

Характеристики алгоритмов
Поскольку классическая кластеризация - это задача обучения без учителя, сравнение алгоритмов кластеризации между собой по точности работы не представляется возможным. Но методы кластеризации можно сравнивать по следующим критериям:
- Используемая метрика похожести.
- Вычислительная сложность.
- Устойчивость к выбросам.
- Находится ли число кластеров автоматически или задается вручную?
- Гибкость формы извлекаемых кластеров, могут ли они быть разной плотности и невыпуклые?
- Строится ли плоская или иерархическая структура?