Учёт пользовательской функции потерь

Функции неопределённости как минимальные значения потерь

Все представленные ранее функции неопределённости решающих деревьев получаются в результате расчёта средних потерь при оптимальном константном прогнозе для этих потерь.

Пусть $I_t$ - индексы объектов, попавших в узел $t$ , а $|I_t|$ - количество таких объектов.

Тогда дисперсия откликов представляет собой минимально возможные среднеквадратичные потери при константном прогнозе $\hat{y}\in\mathbb{R}$ . Оптимальной константой, минимизирующей средний квадрат ошибки, будет выборочное среднее (докажите!):

\begin{aligned} \phi(t)&=\min_{\widehat{y}}\frac{1}{\left|I_{t}\right|}\sum_{i\in I_{t}}\left(y_{i}-\widehat{y}\right)^{2}\\ &=\frac{1}{\left|I_{t}\right|}\sum_{i\in I_{t}}\left(y_{i}-\text{mean}_{i\in I_{t}}(y_{i})\right)^{2} \end{aligned}

Среднее абсолютное отклонение от медианы минимизирует модуль отклонений от оптимальной константы $\hat{y}\in\mathbb{R}$ , в качестве которой выступает медиана (докажите!):

\begin{aligned} \phi(t)&=\min_{\widehat{y}}\frac{1}{\left|I_{t}\right|}\sum_{i\in I_{t}}\vert y_{i}-\widehat{y}\vert\\ &=\frac{1}{\left|I_{t}\right|}\sum_{i\in I_{t}}\vert y_{i}-\text{median}_{i\in I_{t}}(y_{i})\vert \end{aligned}

Классификационная ошибка минимизирует частоту ошибок классификации, когда класс всегда предсказывается также оптимальной константой. В качестве таковой выступает самый часто встречающийся класс (докажите!):

\begin{aligned} \phi(t)&=\min_{\widehat{y}}\frac{1}{\left|I_{t}\right|}\sum_{i\in I_{t}}\mathbb{I}[y_{i}\ne\widehat{y}]\\ &=\frac{1}{\left|I_{t}\right|}\sum_{i\in I_{t}}\mathbb{I}[y_{i}\ne y_{\text{самый частый}}]\\ &=1-\hat{p}_{max} \end{aligned}

Энтропия представляет собой наилучшее значение кросс-энропийных потерь (cross-entropy loss между фактическими вероятностями классов и их предсказанными значениями для всех объектов узла $t$ . Оптимальными вероятностями оказываются при этом фактические частоты классов в узле $\widehat{p}_1,\widehat{p}_2,...\widehat{p}_C$ (докажите!):

\begin{aligned} \phi(t)&=\min_{p:\sum_{c}p_{c}=1}-\frac{1}{\left|I_{t}\right|}\left(\sum_{i\in I_{t}}\sum_{c=1}^{C}\ln p_{c}^{\mathbb{I}[y_{i}=c]}\right)\\ &=\min_{p:\sum_{c}p_{c}=1}-\frac{1}{\left|I_{t}\right|}\left(\sum_{i\in I_{t}}\sum_{c=1}^{C}\mathbb{I}[y_{i}=c]\ln p_{c}\right)\\ &=-\sum_{i=1}^{C}\widehat{p}_{i}\ln\widehat{p}_{i} \end{aligned}

Критерий Джини выступает в качестве оптимального значения функции потерь Бриера между фактическими и предсказываемыми вероятностями. Наилучшими вероятностями также выступают фактические частоты каждого класса среди объектов узла (докажите!):

\begin{aligned} \phi(t)&=\min_{p:\sum_{c}p_{c}=1}\frac{1}{\left|I_{t}\right|}\sum_{i\in I_{t}}\left\lVert \mathbf{p}-\mathbf{p}_{i}^{true}\right\rVert ^{2}\\ &=\min_{p:\sum_{c}p_{c}=1}\frac{1}{\left|I_{t}\right|}\sum_{i\in I_{t}}\sum_{c=1}^{C}\left(p_{c}-\mathbb{I}[y_{i}=c]\right)^{2}\\ &=\sum_{i=1}^{C}\widehat{p}_{i}(1-\widehat{p}_{i})=1-\sum_{i=1}^{C}\widehat{p}_{i}^{2}& \end{aligned}

Задача

Докажите, что энтропия и критерий Джини минимизируют соответствующие функции потерь. Для этого необходимо воспользоваться методом множителей Лагранжа [1], поскольку оптимизация по вектору $\mathbf{p}$ будет производиться при условии, что $\sum_{c=1}^C p_c=1$ .

Функции неопределённости для пользовательской функции потерь

При минимизации нестандартной функции потерь $\mathcal{L}(\hat{y},y)$ оптимальной функцией неопределённости $\phi(t)$ будет минимальное среднее значение значение этой функции потерь при константном прогнозе $\hat{y}$ :

\phi_{\text{opt}}(t) = \min_{\hat{y}}\frac{1}{|I_t|}\sum_{i\in I_t}\mathcal{L}(\hat{y},y_i)

Именно такая функция неопределённости будет оптимальна для минимизации потерь $\mathcal{L}(\hat{y},y)$ .

Такой подход, несмотря на его оптимальность, не реализован в большинстве библиотек машинного обучения в связи с тем, что для стандартных функций потерь оптимальный $\hat{y}$ вычислим аналитически и известен заранее, что позволяет рассчитать функцию неопределённости за $O(|I_t|)$ , в то время как для произвольной функции потерь необходимо производить каждый раз переборную оптимизацию $\hat{y}$ , из-за чего сложность вычисления $\phi(t)$ возрастает до $O(|I_t|^2)$ .

Стоит отметить, что сложность возрастает до квадратичной от числа объектов в узле только во время настройки дерева. Сложность построения прогнозов при этом не меняется, поскольку решающие правила узлов уже фиксированы.

Листовые прогнозы для пользовательской функции потерь

При использовании пользовательской функции потерь $\mathcal{L}(\hat{y},y)$ прогнозы в листах также оптимально назначать как минимизаторы именно этой функции:

\hat{y} = \arg\min_{y}\frac{1}{|I_t|}\sum_{i\in I_t}\mathcal{L}(y,y_i)

В частном случае задачи регрессии с $\mathcal{L}(\hat{y},y)=(\hat{y}-y)^2$ оптимально назначать прогнозом листа выборочное среднее, а при $\mathcal{L}(\hat{y},y)=|\hat{y}-y|$ медиану (докажите!).

В задаче классификации оптимально назначать прогнозом самый часто встречающийся класс среди объектов листа только для функции потерь $\mathcal{L}(\hat{y},y)=\mathbb{I}\{\hat{y}\ne y\}$ (докажите!). Для другой функции потерь это правило уже перестаёт быть оптимальным.

Литература

Wikipedia: метод множителей Лагранжа.

Учёт пользовательской функции потерь

Функции неопределённости как минимальные значения потерь​

Функции неопределённости для пользовательской функции потерь​

Листовые прогнозы для пользовательской функции потерь​

Литература​

Функции неопределённости как минимальные значения потерь

Функции неопределённости для пользовательской функции потерь

Листовые прогнозы для пользовательской функции потерь

Литература