Перейти к основному содержимому

Метод наивного Байеса

Генеративные и дискриминативные модели

Прогностические модели машинного обучения бывают генеративные и дискриминативные.

Дискриминативные модели (discriminative models) моделируют только условное распределение отклика при условии вектора признаков p(yx)p(y|\mathbf{x}).

Генеративные модели (generative models) моделируют совместное распределение признаков и откликов p(x,y)p(\mathbf{x},y). Из генеративной модели можно легко получить дискриминативную по правилу условных вероятностей:

p(yx)=p(x,y)p(x)=p(y)p(xy)p(x)p(y)p(xy),p\left(y|\mathbf{x}\right)=\frac{p(\mathbf{x},y)}{p(\mathbf{x})}=\frac{p\left(y\right)p\left(\mathbf{x}|y\right)}{p\left(\mathbf{x}\right)}\propto p\left(y\right)p\left(\mathbf{x}|y\right),

где \propto означает пропорционально с точностью до константы, которой выступает деление на p(x)p(\mathbf{x}), не зависящей от класса, а потому не влияющей на прогноз его метки.

Идея метода наивного Байеса

Метод наивного Байеса (naive Bayes) представляет собой генеративную модель классификации, в которой дополнительно используется предположение наивного Байеса (naive Bayes assumption), состоящее в том, что признаки предполагаются распределёнными независимо при условии отклика:

p(xy)=p(x1y)p(x2y)...p(xDy)p(\mathbf{x}|y) = p\left(x^{1}|y\right)p\left(x^{2}|y\right)...p\left(x^{D}|y\right)

Например, в задаче классификации писем на полезные и спам по встречаемости разных слов в письме это предположение означает, что при условии класса письма (полезное или спам) встречаемости слов независимы друг от друга.

Предположение наивного Байеса на практике не выполняется, зато оно позволяет существенно упростить оценку многомерного распределения p(xy)p(\mathbf{x}|y), сведя его к оценке набора одномерных распределений! В результате снижается дисперсия оценки сложной модели за счёт её аппроксимации более простой моделью, имеющей более высокое смещение в терминах разложения на смещение и разброс.

Условная и безусловная независимость

Условная независимость не эквивалентна безусловной независимости, записываемой как:

p(x)=p(x1)p(x2)...p(xD)p(\mathbf{x}) = p\left(x^{1}\right)p\left(x^{2}\right)...p\left(x^{D}\right)

Например, в задаче классификации писем на полезные и спам безусловная независимость означает, что P("скидка" и "купи") = P("скидка") × P("купи"). Однако эти два слова однозначно зависимы: при появлении слова "купи" с большой вероятностью встретится и слово "скидка"!

Предположение же условной независимости признаёт, что вероятности слов могут синхронно меняться с классом письма (спам или полезное), однако при условии выбранного класса присутствие одного из слов уже не влияет на вероятность встречи другого.

Сделав предположение наивного Байеса, получим итоговый вид дискриминантных функций классификатора:

p(yx)=p(y)p(xy)p(x)p(y)p(xy)=p(y)p(x1y)p(x2y)...p(xDy)p\left(y|\mathbf{x}\right)=\frac{p\left(y\right)p\left(\mathbf{x}|y\right)}{p\left(\mathbf{x}\right)}\propto p\left(y\right)p\left(\mathbf{x}|y\right)=p\left(y\right)p\left(x^{1}|y\right)p\left(x^{2}|y\right)...p\left(x^{D}|y\right)

Прогноз осуществляется назначением класса, обладающего максимальным значением дискриминантной функции.

Интерпретация

Если общее число признаков DD невелико, то метод наивного Байеса интерпретируем, поскольку вклад каждого признака вносится мультипликативно, и для аномально высокой и низкой вероятности можно отследить, из-за каких признаков и соответствующих слагаемых p(xiy)p\left(x^{i}|y\right) мы получили именно такой прогноз. Отсортировав признаки по этой величине, можно выделить признаки, сильнее всего сдвигающие прогноз в пользу принятия или отказа от заданного класса.