Перейти к основному содержимому

Точность градиентного бустинга

Градиентный бустинг над решающими деревьями - один из самых точных алгоритмов классического машинного обучения для большинства задач, если не брать в расчёт нейросетевые методы. Но даже по сравнению с нейросетями градиентный бустинг показывает сопоставимое, а часто даже более высокое качество на табличных данных, т.е. данных, в которых признаки представлены в виде небольшого вектора признаков. Этот алгоритм особенно хорошо работает, когда признаки имеют разные типы - вещественные, бинарные, категориальные и порядковые, поскольку, в отличие от нейросетей, решающие деревья особенно хорошо справляются с разнородными данными.

Нет универсально самой лучшей модели

Отдавая должное тому, что часто градиентный бустинг оказывается самым точным алгоритмом (при грамотной настройке!), это не снижает важности других методов. Для каждого прогнозирующего алгоритма существует ситуация, когда именно он будет оказываться лучшим из всех возможных (например, генерируя сами данные согласно предложенному алгоритму). Но на самом деле область применимости предложенных алгоритмов гораздо шире:

  • Когда классов много, а представителей каждого класса мало, то метод K ближайших соседей часто оказывается лучшим решением, поскольку начинает распознавать класс всего по нескольким примерам.

  • Когда признаков много по сравнению с числом наблюдений, то линейная модель с регуляризацией может показывать наилучший результат как модель, одновременно учитывающая все признаки в виде самой простой (линейной) зависимости и, следовательно, наименее склонная к переобучению. Нелинейную зависимость от отдельных признаков можно моделировать, подавая на вход модели не сами признаки, а их нелинейные преобразования.

Также мы изучили, что точность повышается, если использовать не одну, а сразу несколько моделей в ансамбле (опять же, при грамотной настройке), куда, в качестве базовых моделей либо мета-модели можно подставлять все изученные методы.