Метод наивного Байеса
Метод наивного Байеса применим только для классификации и представляет собой генеративную модель (generative model), то есть модель, в которой моделируется не только (эти модели называются дискриминативными, discriminative model), а моделируется совместное распределение признаков и откликов .
причем для простоты оценки условной вероятности дополнительно используется предположение наивного Байеса (naive Bayes assumption): вероятность факторизуется в произведение вероятностей для каждого признака (обозначаемого верхним индексом):
Например, в задаче классификации писем на полезные и спам по встречаемости разных слов в письме это предположение означает, что при условии класса письма (полезное или спам) встречаемости слов независимы друг от друга.
Сделав это предположение, получаем итоговый вид модели наивного Байеса:
где обозначает "пропорционально с точностью до общей константы", которая не влияет на итоговый прогноз. Если общее число признаков невелико, то метод наивного Байеса интерпретируем, поскольку вклад каждого признака вносится мультипликат ивно, и для аномально высокой и низкой вероятности можно отследить, из-за каких признаков и соответствующих слагаемых мы получили именно такой прогноз. Отсортировав признаки по этой величине, можно выделить признаки, сильнее всего влияющие в пользу принятия или отказа от заданного класса.