Перейти к основному содержимому

Метод наивного Байеса

Метод наивного Байеса применим только для классификации и представляет собой генеративную модель (generative model), то есть модель, в которой моделируется не только p(yx)p(y|\mathbf{x}) (эти модели называются дискриминативными, discriminative model), а моделируется совместное распределение признаков и откликов p(x,y)p(\mathbf{x},y).

p(yx)=p(x,y)p(x)=p(y)p(xy)p(x),p\left(y|\mathbf{x}\right)=\frac{p(\mathbf{x},y)}{p(\mathbf{x})}=\frac{p\left(y\right)p\left(\mathbf{x}|y\right)}{p\left(\mathbf{x}\right)},

причем для простоты оценки условной вероятности дополнительно используется предположение наивного Байеса (naive Bayes assumption): вероятность p(xy)p\left(\mathbf{x}|y\right) факторизуется в произведение вероятностей для каждого признака (обозначаемого верхним индексом):

p(xy)=p(x1y)p(x2y)...p(xDy)p(\mathbf{x}|y) = p\left(x^{1}|y\right)p\left(x^{2}|y\right)...p\left(x^{D}|y\right)

Например, в задаче классификации писем на полезные и спам по встречаемости разных слов в письме это предположение означает, что при условии класса письма (полезное или спам) встречаемости слов независимы друг от друга.

Сделав это предположение, получаем итоговый вид модели наивного Байеса:

p(yx)=p(y)p(xy)p(x)p(y)p(xy)=p(y)p(x1y)p(x2y)...p(xDy),p\left(y|\mathbf{x}\right)=\frac{p\left(y\right)p\left(\mathbf{x}|y\right)}{p\left(\mathbf{x}\right)}\propto p\left(y\right)p\left(\mathbf{x}|y\right)=p\left(y\right)p\left(x^{1}|y\right)p\left(x^{2}|y\right)...p\left(x^{D}|y\right),

где \propto обозначает "пропорционально с точностью до общей константы", которая не влияет на итоговый прогноз. Если общее число признаков DD невелико, то метод наивного Байеса интерпретируем, поскольку вклад каждого признака вносится мультипликативно, и для аномально высокой и низкой вероятности можно отследить, из-за каких признаков и соответствующих слагаемых p(xiy)p\left(x^{i}|y\right) мы получили именно такой прогноз. Отсортировав признаки по этой величине, можно выделить признаки, сильнее всего влияющие в пользу принятия или отказа от заданного класса.