Метод наивного Байеса
Метод наивного Байеса применим только для классификации и представляет собой генеративную модель (generative model), то есть модель, в которой моделируется не только (эти модели называются дискриминативными, discriminative model), но и совместное распределение признаков и откликов .
причём для простоты оценки условной вероятности дополнительно используется предположение наивного Байеса (naive Bayes assumption): вероятность факторизуется в произведение вероятностей для каждого признака (обозначаемого верхним индексом):
Например, в задаче классификации писем на полезные и спам по встречаемости разных слов в письме это предположение означает, что при условии класса письма (полезное или спам) в стречаемости слов независимы друг от друга.
Сделав это предположение, получаем итоговый вид модели наивного Байеса:
где обозначает "пропорционально с точностью до общей константы", которая не влияет на итоговый прогноз. Если общее число признаков невелико, то метод наивного Байеса интерпретируем, поскольку вклад каждого признака вносится мультипликативно, и для аномально высокой и низкой вероятности можно отследить, из-за каких признаков и соответствующих слагаемых мы получили именно такой прогноз. Отсортировав признаки по этой величине, можно выделить признаки, сильнее всего сдвигающие прогноз в пользу принятия или отказа от заданного класса.