Анализ решающих деревьев
Достоинства метода
Решающие деревья обладают многочисленными достоинствами:
-
Это нелинейная модель с гибкой настройкой сложности по максимальной глубине и минимальному числу объектов в листе. Строя деревья достаточной глубины можно сколь угодно точно подогнать модель под данные (если одинаковым объектам не соответствуют разные отклики).
-
Решающие деревья небольшой глубины можно визуализировать и проинтерпретировать даже не специалистам.
-
Прогнозы строятся быстро, поскольку прогнозирующая функция требует только сравнения определённых признаков с порогом.
-
Модель самостоятельно отбирает только важные признаки. Неинформативные признаки не будут использованы в прогнозах.
-
Модель работает с признаками разной природы: правила "признакпорог" одинаково хорошо применимы и к вещественным, и к бинарным, и к порядковым (упорядоченным категориальным) признакам. В случае неупорядоченных категориальных их рекомендуется кодировать средним, тогда решающее правило будет разделять категории по величине отклика, снижая неопределённость прогнозов. Либо воспользоваться другими стандартными методами кодирования категориальных признаков. Это важное качество, поскольку в большинстве задач мы будем иметь дело с признаками разных типов.
-
По дереву можно рассчитать важность каждого признака для построения прогнозов, что может использоваться как для анализа самого решающего дерева, так и для отбора признаков для моделей других типов (например, нейросетей).
-
Деревья инвариантны к масштабу и монотонным преобразованиям признаков.
Недостатки метода
Помимо достоинств, у решающих деревьев есть и ряд существенных недостатков:
-
У них нет динамической подстройки под потоковые данные. При поступлении новых данных дерево необходимо перестраивать с самого начала до самого конца. При этом решающие правила могут поменяться, начиная с самого верха дерева. То есть это неустойчивый алгоритм даже к небольшим изменениям обучающей выборки.
-
У деревьев сравнительно невысокая точность. Связано это со следующим:
-
Дерево настраивается жадным способом сверху вниз, последовательно выбирая оптимальные правила разбиения, заглядывая лишь на один шаг вперёд. В результате дерево, как целое, будет оказываться неоптимальным - можно достичь более высокой точности при меньшем числе разбиений.
-
Правила "признакпорог" разделяют признаковое пространство гиперплоскостями, перпендикулярными осям координат, в результате чего получается кусочно-постоянная функция прогноза. Такая функция будет неточно прогнозировать плавные изменения отклика, в особенности, когда эти изменения происходят не вдоль отдельного признака, а являются результатом совместного изменения нескольких признаков.
-
Точность решающих деревьев можно существенно повысить, если использовать для прогнозов не одно дерево, а совокупность их совокупность (а нсамбль). О построении ансамблей моделей будет рассказано в следующей главе.