Может ли качество бустинга устойчиво снижаться при выборе слишком большого числа базовых моделей?
Имеет ли смысл в качестве базовых моделей бустинга использовать только модели линейной регрессии? Почему?
В качестве базовых моделей бустинга следует использовать простые или сложные модели (в терминах их гибкости подстройки под данные)? Почему?
Насколько устойчивым к наличию выбросов будет получаться решение, найденное алгоритмом AdaBoost?
Следует выбирать модели градиентного бустинга так, чтобы их прогнозы оказывались как можно более похожими или непохожими? Какой приём позволяет этого добиться?
Объясните, почему приём shrinkage приводит к повышению точности прогнозов? Какой у него есть недостаток?
На какую обучающую выборку будет настраиваться базовая модель градиентного бустинга при решении задачи классификации с логистическими потерями?