Связь с принципом максимального правдоподобия
Многие модели машинного обучения могут сопоставлять целевой величине вероятностное распределение (probability distribution).
В случае задачи классификации - это вероятности каждого из классов при условии объекта :
В случае задачи регрессии предсказывается условная плотность вероятностного распределения , позволяющая рассчитать, с какой вероятностью вещественная величина принадлежит каждому интервалу.
В этих случаях модель машинного обучения представляет собой вероятностную модель. При предположении, что объекты выборки распределены независимо, вероятность пронаблюдать ответы на всей выборке факторизуется в произведение вероятностей пронаблюдать ответ на каждом объекте выборки:
В случае задачи регрессии получается аналогичная факторизация, но состоящая не из вероятностей отдельных классов, а из значений условной плотности.
Принцип максимума правдоподобия (maximum likelihood estimation) назначает такие параметры модели , которые бы максимизировали вероятность пронаблюдать верные отклики на всех объектах обучающей выборки. Таким образом, параметры вероятностной модели находятся из условия
Вычислительно неудобно максимизировать произведение большого количества малых чисел (получим машинный ноль), поэтому на практике максимизируют средний логарифм правдоподобия, дающий тот же самый результат:
Это очень похоже на принцип минимизации эмпирического риска, согласно которому параметры модели должны находиться из условия:
Отсюда видна взаимосвязь принципа минимизации эмпирического риска и принципа максимального правдоподобия. При выборке такой функции потерь и прогнозирующей функции, что
модель машинного обучения настраивается точно так же, как соответствующая вероятностная модель. Верно и в обратную сторону. Если вероятностную модель выбрать таким образом, что равенство выше выполняется, то модель машинного обучения можно эквивалентно описать вероятностной моделью. Знак минус взят, поскольку в одном случае целевой функционал нужно максимизировать, а в другом - минимизировать.
Вы также можете прочитать о связи принципов минимизации эмпирического риска и принципа максимума правдоподобия при использовании разных типов регуляризации в [1].