Naive Bayes - Blogs

宏观理解
微观分析

宏观理解

朴素贝叶斯模型是一个概率模型，是一个生成模型（Generative Model），背后的数学理论来自于贝叶斯理论。简单来说它计算的就是已知X的情况下，Y的概率是多少，所以一般预测一个值都会计算两个数值概率，分别是已知X的情况下，Y = 1的概率和已知X的情况下，Y = 0的概率。然后我们看哪个概率更高就预测为哪个。

微观分析

学习这个模型第一件事就是贴贝叶斯公式：

认识一下，在这个公式里有几个组成部分：

P(B	A)：在事件A下事件B发生的条件概率，叫做后验概率（posterior prob）

P(A	B)：在事件B下事件A发生的条件概率，叫做似然函数（Likelihood function）

P(A)，P(B)：独立事件A和独立事件B的边缘概率，叫做先验概率（prior prob）

了解完贝叶斯公式，再看一下贝叶斯准则：

在这里我们要求A, C是相互独立的事件。举个例子，如果我们有一句电影的评价，我么想预测它是积极的还是消极的评价，那么我们就有了下面的计算：

这里面要求每个单词都是相互独立的。

在工程里面，可能概率会越来越小，而且乘法计算消耗时间，那么我们就可以把每个概率取对数：

计算出来的概率有可能为0，那么我们可以用拉普拉斯平滑（Laplace Smoothing）。

如果训练的单词太多，可以用stop words，比如上面的 “this”， “is”， “a” 都可能被去掉。

当然如果单词之间有相互依赖关系，我们可以用N-Gram。比如这里用的就是3-Gram:

P(“This is a great movie”|negative) = P(“This is a”|negative) * P(“is a great”|negative) * P(“a great movie”|negative)

最后我们还可以设置出现在不同地方的单词权重不一样，比如出现在标题的权重高一点，文本的低一点。

这些都可以用于对文本分析模型的优化。

目录

宏观理解

微观分析