Перейти к основному содержимому

Анализ решающих деревьев

Решающие деревья являются одними из самых используемых алгоритмов классического машинного обучения. Проанализируем их достоинства и недостатки.

Достоинства метода

  • Это нелинейная модель с гибкой настройкой сложности по максимальной глубине и минимальному числу объектов в листе. Настраивая деревья достаточной глубины, можно сколь угодно точно подогнать модель под данные (если одинаковым объектам не соответствуют разные отклики).

  • Модель самостоятельно отбирает важные признаки. Неинформативные признаки не будут использованы в прогнозах.

  • Модель универсально работает с признаками разной природы, поскольку правила [признак\leпорог] одинаково применимы и к вещественным, и к бинарным, и к порядковым (упорядоченным категориальным) признакам. Категориальные же признаки всегда можно предварительно преобразовать в бинарные или вещественные одним из стандартных способов. Это важное качество, поскольку в большинстве задач мы будем иметь дело с признаками разных типов!

  • По дереву можно рассчитать важность каждого признака для построения прогнозов, что может использоваться как для анализа самого решающего дерева, так и для отбора признаков для моделей других типов (например, нейросетей).

  • Деревья инвариантны к масштабу и монотонным преобразованиям признаков, поскольку к ним инвариантны заложенные в них правила [признак\leпорог] после перенастройки моделей.

  • Прогнозы строятся быстро, поскольку прогнозирующая функция требует только сравнения определённых признаков с порогом.

  • Решающие деревья небольшой глубины можно визуализировать и проинтерпретировать даже не специалистам.

Недостатки метода

  • У решающих деревьев нет динамической подстройки под потоковые данные. При поступлении новых данных дерево необходимо перестраивать с самого начала до самого конца. При этом решающие правила могут поменяться, начиная с самого верха дерева! То есть это неустойчивый алгоритм даже к небольшим изменениям обучающей выборки.

  • У деревьев сравнительно невысокая точность. Это связано со следующими свойствами:

    • Дерево настраивается жадным способом сверху вниз, последовательно выбирая оптимальные правила разбиения, заглядывая лишь на один шаг вперёд. В результате дерево, как целое, будет оказываться неоптимальным - можно достичь более высокой точности при меньшем числе разбиений.

    • Правила [признак\leпорог] разделяют признаковое пространство гиперплоскостями, перпендикулярными осям координат, в результате чего получается кусочно-постоянная функция прогноза. Такая функция будет неточно прогнозировать плавные изменения отклика, а также изменения, происходящие не вдоль отдельного признака, а под углом к осям координат признакового пространства.

Увеличение точности деревьев

Точность решающих деревьев можно существенно повысить, если использовать для прогнозов не одно дерево, а набор из нескольких деревьев (ансамбль). О построении ансамблей моделей будет рассказано в следующей главе. Отдельный раздел учебника посвящён построению ансамблей с помощью алгоритма бустинга.

Ансамбли над решающими деревьями - это самый часто используемый метод классического машинного обучения!