Связь с принципом максимального правдоподобия
Многие модели машинного обучения могут сопоставлять целевой величине вероятностное распределение.
В случае задачи классификации - это вероятности каждого из классов при условии объекта :
В случае задачи регрессии предсказывается условная плотность вероятностного распределения .
В этих случаях модель машинного обучения представляет собой вероятностную модель. При предположении, что объекты выборки распределены независимо, вероятность пронаблюдать ответы на всей выборке факторизуется в произведение вероятностей пронаблюдать ответ на каждом объекте выборки:
Задачу регрессии также можно описать в вероятностных терминах. Поскольку в ней , то вероятностная модель будет описывать распределение исходов не как вероятность отдельных классов, а с помощью плотности распределения.
Принцип максимума правдоподобия (maximum likelihood estimation) наз начает такие параметры модели , которые бы максимизировали вероятность пронаблюдать верные отклики на всех объектах обучающей выборки. Таким образом, параметры вероятностной модели находятся из условия
Вычислительно неудобно максимизировать произведение большого количества малых чисел (получим машинный ноль), поэтому на практике максимизируют средний логарифм правдоподобия, дающий тот же самый результат:
Это очень похоже на принцип минимизации эмпирического риска, согласно которому параметры модели должны находиться из условия:
Отсюда видна взаимосвязь принципа минимизации эмпирического риска и принципа максимального правдоподобия. При выборке такой функции потерь и прогнозирующей функции, что
модель машинного обучения настраивается точно так же, как соответствующая вероятностная модель. Верно и в обратную сторону. Если вероятностную модель выбрать таким образом, что равенство выше выполняется, то модель машинного обучения можно эквивалентно описать вероятностной моделью. Знак минус взят, поскольку в одном случае целевой функционал нужно максимизировать, а в другом - минимизировать.