Перейти к основному содержимому

Связь с принципом максимального правдоподобия

Если наша модель машинного обучения fw(x)f_\mathbf{w}(\mathbf{x}) способна сопоставлять каждому объекту x\mathbf{x} распределение вероятностей классов

[pw(y=1x),pw(y=2x),...pw(y=Cx)],[p_\mathbf{w}(y=1|\mathbf{x}),p_\mathbf{w}(y=2|\mathbf{x}),...p_\mathbf{w}(y=C|\mathbf{x})],

то она представляет собой уже вероятностную модель, способную каждому наблюдению (x,y)(\mathbf{x},y) сопоставить вероятность пронаблюдать именно такой класс p^w(yx)\hat{p}_\mathbf{w}(y|\mathbf{x}). При предположении, что объекты выборки распределены независимо, вероятность пронаблюдать ответы на всей выборке (X,Y)(X,Y) факторизуется в произведение вероятностей пронаблюдать ответ на каждом объекте выборки:

p^w(YX)=n=1Np^w(ynxn)\hat{p}_\mathbf{w}(Y|X)=\prod_{n=1}^N \hat{p}_\mathbf{w}(y_n|\mathbf{x}_n)
Задача регрессии

Задачу регрессии также можно описать в вероятностных терминах. Поскольку в ней yRy\in\mathbb{R}, то вероятностная модель будет описывать распределение исходов не как вероятность отдельных классов, а с помощью плотности распределения.

Принцип максимума правдоподобия (maximum likelihood estimation) из математической статистики назначает такие параметры модели w^\hat{\mathbf{w}}, которые бы максимизировали вероятность пронаблюдать известные отклики на всех объектах обучающей выборки и параметры вероятностной модели находятся из условия

w^=arg maxwn=1Np^w(ynxn)\hat{\mathbf{w}} = \argmax_\mathbf{w} \prod_{n=1}^N \hat{p}_\mathbf{w}(y_n|\mathbf{x}_n)

Вычислительно неудобно максимизировать произведение большого количества малых чисел (получим машинный ноль), поэтому на практике максимизируют средний логарифм правдоподобия, дающий тот же самый результат:

w^=arg maxw1Nn=1Nlogp^w(ynxn)\hat{\mathbf{w}} = \argmax_\mathbf{w} \frac{1}{N}\sum_{n=1}^N \log \hat{p}_\mathbf{w}(y_n|\mathbf{x}_n)

Это очень похоже на принцип минимизации эмпирического риска, согласно которому параметры модели должны находиться из условия:

w^=arg minw1Nn=1NL(fw(xn),yn)\hat{\mathbf{w}}=\argmin_\mathbf{w}\frac{1}{N}\sum_{n=1}^{N}\mathcal{L}(f_{\mathbf{w}}(\mathbf{x}_{n}),\,y_{n})

Отсюда видна взаимосвязь принципа минимизации эмпирического риска и принципа максимального правдоподобия. При выборке такой функции потерь и прогнозирующей функции, что

L(fw(xn),yn)=logp^w(ynxn)\mathcal{L}(f_{\mathbf{w}}(\mathbf{x_n}),y_{n})=-\log \hat{p}_\mathbf{w}(y_n|\mathbf{x}_n)

модель машинного обучения настраивается точно также, как соответствующая вероятностная модель. Верно и в обратную сторону. Если вероятностную модель выбрать таким образом, что равенство выше выполняется, то модель машинного обучения можно эквивалентно описать вероятностной моделью. Знак минус взят, поскольку в одном случае целевой функционал нужно максимизировать, а в другом - минимизировать.