Вопросы для самопроверки
- Возможно ли теоретически построить сколь угодно точный ансамбль моделей, использующий только неточные базовые модели?
- Почему в общем случае нельзя усреднять дискриминантные функции разных базовых моделей в ансамбле? В чём смысл рангового преобразования перед усреднением рейтингов?
- Может ли качество бэггинга устойчиво снижаться при выборе слишком большого числа базовых моделей?
- Чем метод случайных подпространств отличается от алгоритма случайного леса?
- Чем алгоритм случайного леса отличается от алгоритма особо случайных деревьев? В каком случае базовые модели получаются более недообученные?
- Может ли качество прогнозов начать систематически ухудшаться с ростом числа базовых моделей в алгоритмах бэггинга, методе случайных подпространств, алгоритме случайного леса и особо случайных деревьев? Почему?
- Оценка out-of-bag в среднем переоценивает или недооценивает качество прогнозов на тестовой выборке?
- Почему в стэкинге нельзя настраивать агрегирующую модель на прогнозах тех же объектов, по которым настраивались базовые модели? Почему базовые модели можно донастроить на всех наблюдениях после того, как агрегирующая модель уже зафиксирована?