Перейти к основному содержимому

Иллюстрация работы градиентного бустинга по шагам

Рассмотрим визуализацию работы градиентного бустинга:

Gm(x)=f0(x)+εf1(x)+εf2(x)+...+εfm(x),G_m(\mathbf{x})=f_0(\mathbf{x})+\varepsilon f_1(\mathbf{x})+\varepsilon f_2(\mathbf{x})+...+\varepsilon f_m(\mathbf{x}), m=1,2,3,...m=1,2,3,...

где

  • f0(x)0f_0(\mathbf{x})\equiv 0

  • f1(x),f2(x),...f_1(\mathbf{x}),f_2(\mathbf{x}),... - решающие деревья глубины 3.

  • ε=0.3\varepsilon=0.3.

Для простоты визуализации рассмотрим двумерное признаковое пространство

x=[x1,x2].\mathbf{x}=[x^1,x^2].

Будем строить целевую зависимость y(x)y(\mathbf{x}) и текущее приближение Gm(x)G_m(\mathbf{x}) на левом графике, а ошибку y(x)Gm(x)y(\mathbf{x})-G_m(\mathbf{x}) и следующую базовую модель fm+1(x)f_{m+1}(\mathbf{x}) - на правом.

m=0:m=0:

m=1:m=1:

m=2:m=2:

m=3:m=3:

m=4:m=4:

m=5:m=5:

m=6:m=6:

m=7:m=7:

m=8:m=8:

m=9:m=9:

m=10:m=10:

Как видим, с ростом mm отклонение прогноза от истинного значения уменьшается и становится более шумным. Скачки в ошибке возникают на местах разбиения признакового пространства узлами деревьев.

Результаты работы были получены, используя интерактивный визуализатор Алексея Рогожникова, на котором можно отобразить работу бустинга и при других пользовательских параметрах.