Анализ решающих деревьев

Решающие деревья являются одними из самых используемых алгоритмов классического машинного обучения. Проанализируем их достоинства и недостатки.

Достоинства метода

Это нелинейная модель с гибкой настройкой сложности по максимальной глубине и минимальному числу объектов в листе. Настраивая деревья достаточной глубины, можно сколь угодно точно подогнать модель под данные (если одинаковым объектам не соответствуют разные отклики).
Модель самостоятельно отбирает важные признаки. Неинформативные признаки не будут использованы в прогнозах.
Модель универсально работает с признаками разной природы, поскольку правила [признак $\le$ порог] одинаково применимы и к вещественным, и к бинарным, и к порядковым (упорядоченным категориальным) признакам. Категориальные же признаки всегда можно предварительно преобразовать в бинарные или вещественные одним из стандартных способов. Это важное качество, поскольку в большинстве задач мы будем иметь дело с признаками разных типов!
По дереву можно рассчитать важность каждого признака для построения прогнозов, что может использоваться как для анализа самого решающего дерева, так и для отбора признаков для моделей других типов (например, нейросетей).
Деревья инвариантны к масштабу и монотонным преобразованиям признаков, поскольку к ним инвариантны заложенные в них правила [признак $\le$ порог] после перенастройки моделей.
Прогнозы строятся быстро, поскольку прогнозирующая функция требует только сравнения определённых признаков с порогом.
Решающие деревья небольшой глубины можно визуализировать и проинтерпретировать даже не специалистам.

Недостатки метода

У решающих деревьев нет динамической подстройки под потоковые данные. При поступлении новых данных дерево необходимо перестраивать с самого начала до самого конца. При этом решающие правила могут поменяться, начиная с самого верха дерева! То есть это неустойчивый алгоритм даже к небольшим изменениям обучающей выборки.
У деревьев сравнительно невысокая точность. Это связано со следующими свойствами:
- Дерево настраивается жадным способом сверху вниз, последовательно выбирая оптимальные правила разбиения, заглядывая лишь на один шаг вперёд. В результате дерево, как целое, будет оказываться неоптимальным - можно достичь более высокой точности при меньшем числе разбиений.
- Правила [признак $\le$ порог] разделяют признаковое пространство гиперплоскостями, перпендикулярными осям координат, в результате чего получается кусочно-постоянная функция прогноза. Такая функция будет неточно прогнозировать плавные изменения отклика, а также изменения, происходящие не вдоль отдельного признака, а под углом к осям координат признакового пространства.

Увеличение точности деревьев

Точность решающих деревьев можно существенно повысить, если использовать для прогнозов не одно дерево, а набор из нескольких деревьев (ансамбль). О построении ансамблей моделей будет рассказано в следующей главе. Отдельный раздел учебника посвящён построению ансамблей с помощью алгоритма бустинга.

Ансамбли над решающими деревьями - это самый часто используемый метод классического машинного обучения!

Анализ решающих деревьев

Достоинства метода​

Недостатки метода​

Достоинства метода

Недостатки метода