Точность градиентного бустинга
Градиентный бустинг над решающими деревьями - один из самых точных алгоритмов классического машинного обучения для большинства задач, если не брать в расчёт нейросетевые методы. Но даже по сравнению с нейросетями градиентный бустинг показывает сопоставимое, а часто даже более высокое качество на табличных данных, в которых признаки представлены в виде небольшого вектора признаков. Этот алгоритм особенно хорошо работает, когда признаки имеют разные типы - вещественные, бинарные, категориальные и порядковые, поскольку, в отличие от нейросетей, решающие деревья особенно хорошо справляются с разнородными типами данных.
Делаются попытки догнать качество бустинга на табличных данных с помощью нейросетей, см. Tabular Deep Learning, например, [1] и [2].
Точность градиентного бустинга не снижает важности других методов. Для каждого прогнозирующего алгоритма существует ситуация, когда именно он будет оказываться лучшим из всех возможных (например, генерируя сами данные согласно предложенному алгоритму).
Это явно иллюстрируется в no free lunch теоремах [3], [4], доказывающих невозможность доминирования одного алгоритма оптимизации над всеми остальными в общем случае.
Изученные методы могут улучшать точность прогнозов, работая в ансамбле с градиентным бустингом.
Также для всех изученных алгоритмов существуют ситуации, когда именно они будут оказываться наилучшими, например:
-
Когда классов много, а представителей каждого класса мало, то метод K ближайших соседей часто оказывается лучшим решением, поскольку начинает распознавать класс всего по нескольким примерам.
-
Когда признаков много по сравнению с числом наблюдений, то линейная модель с регуляризацией может показывать наилучший результат как модель, учитывающая одновременное влияние сразу всех признаков. Поскольку влиян ие моделируется самой простой (линейной) зависимостью, эта модель наименее склонна переобучаться на малых выборках.
Также базовые модели классического машинного обучения, будучи простыми в настройке, часто используются в качестве референса (бейзлайна) относительно которого уже улучшается качество более продвинутыми моделями, такими как градиентный бустинг и нейросети. Если же сложные модели дают минимальный прирост в точности, но работают существенно медленнее, то из соображений эффективности целесообразен возврат к базовым моделям.