Интерпретация решающего дерева
Визуализация деревьев
Решающее дерево небольшой глубины можно визуализировать и анализировать напрямую. В этом смысле, это метод обладаю щий глобальной интерпретируемостью. Ниже приведён простой пример решающего дерева для задачи кредитного скоринга в банке, работу которого может понять даже не-специалист:
Глобальная важность признаков
Можно оценивать значимость каждого признака для прогнозов решающего дерева в целом по выборке, используя среднее изменение неопределённости (mean decrease in impurity, MDI).
Рассмотрим задачу wine, в которой по характеристикам вина требуется предсказать его класс. Значимости каждого признака приведён ниже (источник):
откуда сразу видно, что уровень пролина оказывается самым важным признаком.
Эту же методику можно применять для ансамбля над решающими деревьями (используя бэггинг, случайный лес, бустинг) - нужно лишь усреднить важности признаков каждого дерева с теми коэффициентами, с которыми они учитываются в ансамбле. Поскольку ансамбли дают более точные прогнозы, расчёт важности по ансамблю деревьев даст более надёжную оценку влияния признаков на отклик.
Анализ самых значимых признаков - важный этап первичного анализа данных, который стоит применять, даже если вы не собираетесь впоследствии использовать сами решающие деревья!
Вклад признака в прогноз
Прогноз приписывается каждому листу простым усреднением откликов объектов, попавших в лист. В случае классификации усредняются one-hot закодированные метки классов, что на выходе даёт вектор предсказанных вероятностей классов. Но аналогично можно сопоставить прогноз и каждому промежуточному узлу. Это даёт возможность проинтерпретировать вклад каждого признака в прогноз на отдельном объекте .
Пусть - узел дерева, - соответствующий родительский узел, - корень дерева, а - путь от корня до листа, по которому объект спустился вниз по дереву. Посчитаем для объекта прогноз в каждом промежуточном узле дерева вдоль пути . Итоговый прогн оз можно декомпозировать по вкладу в него каждого узла:
Но нам нужен не вклад каждого узла, а вклад каждого признака в прогноз для интересующего объекта. Для этого для каждого признака найдём множество тех узлов , где этот признак использовался в решающем правиле дерева.
Тогда вклад -го признака в прогноз считается как суммарный вклад по узлам, учитывающим -й признак:
Так мы рассчитаем вклад каждого признака в прогноз определённого объекта . Обратим внимание, что
причём часть признаков будут влиять в плюс, а другая часть - в минус конечного прогноза.
Метод обобщается на ансамбль решающих деревьев (бэггинг, бустинг, решающий лес, особо случайные деревья) - нужно усреднить вклады признаков по деревьям ансамбля.
Усредняя оценку важности по всем объектам выборки, получим глобальную важность признака, похожую по смыслу на меру среднего изменения неопределённости. Первая мера оценивает важность в терминах целевой переменной, а вторая - в терминах влияния на функцию неопределённости, по которой настраивалось дерево.