Функции неопределённости как минимальные значения потерь
Все функции неопределённости решающих деревьев получаются в результате расчёта среднего от некоторых потерь при оптимальном константном прогнозе для этих потерь.
Пусть It - индексы объектов, попавших в узел t, а ∣It∣ - количество таких объектов.
Тогда дисперсия откликов представляет собой минимально возможные среднеквадратичные потери при константном п рогнозе y^∈R. Оптимальной константой, минимизирующей средний квадрат ошибки будет выборочное среднее (докажите!):
Среднее абсолютное отклонение от медианы минимизирует модуль отклонений от оптимальной константы y^∈R, в качестве которой выступает медиана (докажите!):
Классификационная ошибка выдаёт среднее число ошибок классификации, когда класс всегда предсказывается также оптимальной константой. В качестве таковой выступает самый часто встречающийся класс (докажите!):
Энтропия представляет собой наилучшее значение кросс-энропийных потерь (cross-entropy loss), между фактическими вероятностями классов и их предсказанными значениями для всех объектов узла t. Оптимальными вероятностями оказываются при этом фактические частоты классов в узле p1,p2,...pC:
Критерий Джини выступает в качестве оптимального значения функции потерь Бриера между фактическими и предсказываемыми вероятностями. Наилучшими вероятностями также выступают фактические частоты каждого класса среди объектов узла:
Докажите, что энтропия и критерий Джини минимизируют соответствующие функции потерь. Для этого необходимо воспользоваться методом множителей Лагранжа, поскольку оптимизация по вектору p будет производиться при условии, что ∑c=1Cpc=1.
Функции неопределённости для пользовательской функции потерь
Если пользователь минимизирует нестандартную функцию потерь L(y^,y), то оптимальной функцией неопределённости ϕ(t) будет минимальное среднее значение значение его функции потерь при константном прогнозе y^:
ϕopt(t)=y^min∣It∣1i∈It∑L(y^,yi)
Именно эта, а никакая другая, функция неопределённости будет оптимальна для минимизации потерь L(y^,y).
Такой подход, несмотря на его оптимальность, не реализован в большинстве библиотек машинного обучения в связи с тем, что для стандартных функций потерь оптимальный y^ вычислим аналитически и известен заранее, что позволяет рассчитать функцию неопределённости за O(∣It∣), в то время как для произвольной функции потерь необходимо производить каждый раз переборную оптимизацию y^, из-за чего сложность вычисления ϕ(t) возрастает до O(∣It∣2). Стоит отметить, что сложность возрастает до квадратичной от числа объектов в узле только во время настройки дерева. Сложность построения прогнозов при этом не меняется, поскольку решающие правила узлов уже фиксированы.
Листовые прогнозы для пользовательской функции потерь
В случае использования пользовательской функции потерь L(y^,y), прогнозы в листах также оптимально назначать как минимизаторы именно этой функции.
y^=argymin∣It∣1i∈It∑L(y,yi)
В частном случае, когда решается задача регрессии с L(y^,y)=(y^−y)2, то оптимально назначать прогнозом листа выборочное среднее, а когда L(y^,y)=∣y^−y∣, то медиану (докажите!). В задаче классификации оптимально назначать прогнозом самый часто встречающийся класс среди объектов листа только для функции потерь L(y^,y)=I{y^=y} (докажите!). В более общем случае потерь это правило уже перестаёт быть оптимальным.