Связь с принципом максимального правдоподобия
Если наша модель машинного обучения способна сопоставлять каждому объекту распределение вероятностей классов
то она представляет собой уже вероятностную модель, способную каждому наблюдению сопоставить вероятность пронаблюдать именно такой класс . При предположении, что объекты выборки распределены независимо, вероятность пронаблюдать ответы на всей выборке факторизуется в произведение вероятностей пронаблюдать ответ на каждом объекте выборки:
Задачу регрессии также можно описать в вероятностных терминах. Поскольку в ней , то вероятностная модель будет описывать распределение исходов не как вероятность отдельных классов, а с помощью плотности распределения.
Принцип максимума правдоподобия (maximum likelihood estimation) из математической статистики назначает такие параметры модели , которые бы максимизировали вероятность пронаблюдать известные отклики на всех объектах обучающей выборки и параметры вероятностной модели находятся из условия
Вычислительно неудобно максимизировать произведение большого количества малых чисел (получим машинный ноль), поэтому на практике максимизируют средний логарифм правдоподобия, дающий тот же самый результат:
Это очень похоже на принцип минимизации эмпирического риска, согласно которому параметры модели должны находиться из условия:
Отсюда видна взаимосвязь принципа минимизации эмпирического риска и принципа максимального правдоподобия. При выборке такой функции потерь и прогнозирующей функции, что
модель машинного обучения настраивается точно также, как соответствующая вероятностная модель. Верно и в обратную сторону. Если вероятностную модель выбрать таким образом, что равенство выше выполняется, то модель машинного обучения можно э квивалентно описать вероятностной моделью. Знак минус взят, поскольку в одном случае целевой функционал нужно максимизировать, а в другом - минимизировать.