Анализ решающих деревьев
Решающие деревья являются одними из самых используемых алгоритмов классического машинного обучения. Проанализируем их достоинства и недостатки.
Достоинства метода
-
Это нелинейная модель с гибкой настройкой сложности по максимальной глубине и минимальному числу объектов в листе. Настраивая деревья достаточной глубины, можно сколь угодно точно подогнать модель под данные (если одинаковым объектам не соответствуют разные отклики).
-
Модель самостоятельно отбирает важные признаки. Неинформативные признаки не будут использованы в прогнозах.
-
Модель универсально работает с признаками разной природы, поскольку правила [признакпорог] одинаково применимы и к вещественным, и к бинарным, и к порядковым (упорядоченным категориальным) признакам. Категориальные же признаки всегда можно предварительно преобразовать в бинарные или вещественные одним из стандартных способов. Это важное качество, поскольку в большинстве задач мы будем иметь дело с признаками разных типов!
-
По дереву можно рассчитать важность каждого признака для построения прогнозов, что может использоваться как для анализа самого решающего дерева, так и для отбора признаков для моделей других типов (например, нейросетей).
-
Деревья инвариантны к масштабу и монотонным преобразованиям признаков, поскольку к ним инвариантны заложенные в них правила [признакпорог] после перенастройки моделей.
-
Прогнозы строятся быстро, поскольку прогнозирующая функция требует только сравнения определённых признаков с порогом.
-
Решающие деревья небольшой глубины можно визуализировать и проинтерпретировать даже не специалистам.
Недостатки метода
-
У решающих деревьев нет динамической подстройки под потоковые данные. При поступлении новых данных дерево необходимо перестраивать с самого начала до самого конца. При этом решающие правила могут поменяться, начиная с самого верха дерева! То есть это неустойчивый алгоритм даже к небольшим изменениям обучающей выборки.
-
У деревьев сравнительно невысокая точность. Это связано со следующими свойствами:
-
Дерево настраивается жадным способом сверху вниз, последовательно выбирая оптимальные правила разбиения, заглядывая лишь на один шаг вперёд. В результате дерево, как целое, будет оказываться неоптимальным - можно достичь более высокой точности при меньшем числе разбиений.
-
Правила [признакпорог] разделяют признаковое пространство гиперплоскостями, перпендикулярными осям координат, в результате чего получается кусочно-постоянная функция прогноза. Такая функция будет неточно прогнозировать плавные изменения отклика, а также изменения, происходящие не вдоль отдельного признака, а под углом к осям координат признакового пространства.
-
Точность решающих деревьев можно существенно повысить, если использовать для прогнозов не одно дерево, а набор из нескольких деревьев (ансамбль). О построении ансамблей моделей будет рассказано в следующей главе. Отдельный раздел учебника посвящён построению ансамблей с помощью алгоритма бустинга.
Ансамбли над решающими деревьями - это самый часто используемый метод классического машинного обучения!