Перейти к основному содержимому

Связь с принципом максимального правдоподобия

Многие модели машинного обучения fw(x)f_\mathbf{w}(\mathbf{x}) могут сопоставлять целевой величине вероятностное распределение.

В случае задачи классификации - это вероятности каждого из классов при условии объекта x\mathbf{x}:

[p^w(y=1x),p^w(y=2x),...p^w(y=Cx)][\hat{p}_\mathbf{w}(y=1|\mathbf{x}),\hat{p}_\mathbf{w}(y=2|\mathbf{x}),...\hat{p}_\mathbf{w}(y=C|\mathbf{x})]

В случае задачи регрессии предсказывается условная плотность вероятностного распределения p^w(yx)\hat{p}_\mathbf{w}(y|x).

В этих случаях модель машинного обучения представляет собой вероятностную модель. При предположении, что объекты выборки распределены независимо, вероятность пронаблюдать ответы на всей выборке (X,Y)(X,Y) факторизуется в произведение вероятностей пронаблюдать ответ на каждом объекте выборки:

p^w(YX)=n=1Np^w(ynxn)\hat{p}_\mathbf{w}(Y|X)=\prod_{n=1}^N \hat{p}_\mathbf{w}(y_n|\mathbf{x}_n)
Задача регрессии

Задачу регрессии также можно описать в вероятностных терминах. Поскольку в ней yRy\in\mathbb{R}, то вероятностная модель будет описывать распределение исходов не как вероятность отдельных классов, а с помощью плотности распределения.

Принцип максимума правдоподобия (maximum likelihood estimation) назначает такие параметры модели w^\hat{\mathbf{w}}, которые бы максимизировали вероятность пронаблюдать верные отклики на всех объектах обучающей выборки. Таким образом, параметры вероятностной модели находятся из условия

w^=argmaxwn=1Np^w(ynxn)\hat{\mathbf{w}} = \arg\max_\mathbf{w} \prod_{n=1}^N \hat{p}_\mathbf{w}(y_n|\mathbf{x}_n)

Вычислительно неудобно максимизировать произведение большого количества малых чисел (получим машинный ноль), поэтому на практике максимизируют средний логарифм правдоподобия, дающий тот же самый результат:

w^=argmaxw1Nn=1Nlogp^w(ynxn)\hat{\mathbf{w}} = \arg\max_\mathbf{w} \frac{1}{N}\sum_{n=1}^N \log \hat{p}_\mathbf{w}(y_n|\mathbf{x}_n)

Это очень похоже на принцип минимизации эмпирического риска, согласно которому параметры модели должны находиться из условия:

w^=argminw1Nn=1NL(fw(xn),yn)\hat{\mathbf{w}}=\arg\min_\mathbf{w}\frac{1}{N}\sum_{n=1}^{N}\mathcal{L}(f_{\mathbf{w}}(\mathbf{x}_{n}),\,y_{n})

Отсюда видна взаимосвязь принципа минимизации эмпирического риска и принципа максимального правдоподобия. При выборке такой функции потерь и прогнозирующей функции, что

L(fw(xn),yn)=logp^w(ynxn),\mathcal{L}(f_{\mathbf{w}}(\mathbf{x_n}),y_{n})=-\log \hat{p}_\mathbf{w}(y_n|\mathbf{x}_n),

модель машинного обучения настраивается точно так же, как соответствующая вероятностная модель. Верно и в обратную сторону. Если вероятностную модель выбрать таким образом, что равенство выше выполняется, то модель машинного обучения можно эквивалентно описать вероятностной моделью. Знак минус взят, поскольку в одном случае целевой функционал нужно максимизировать, а в другом - минимизировать.