在《机器学习实战》中的  朴素贝叶斯分类算法比较深刻的解读了朴素贝叶斯分类算法的原理,基于朴素贝叶斯分类算法构建文本分类器的Python实现主要用Python实现贝叶斯分类,并构建了一个简单的文本分类器模型,接下来将着重解读scikit-learn中关于贝叶斯算法的一些说明
1:朴素贝叶斯算法说明
2:高斯朴素贝叶斯(Gaussian
Naive Bayes)
3:多项式朴素贝叶斯(Multinomial
Naive Bayes)
4:伯努利朴素贝叶斯(
Bernoulli Naive Bayes)
一:朴素贝叶斯算法说明
朴素贝叶斯算法是建立在每一个特征值之间时独立的基础上的监督学习分类算法,而这也是称他为
“朴素”贝叶斯的缘由,在现实环境中,很难达到两个特征值之间绝对的相互独立。在给定一个类变量Y和依赖的特征向量x_1通过x_n,贝叶斯定理的状态下面的关系:
 
     
     
     
     
     
     
     
     
     
     
     
  http://img.blog.csdn.net/20160426200437366?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center
假设两个特征值之间时相互独立的
     
     
   http://img.blog.csdn.net/20160426200608760?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center
对于所有的 i
值,这种关系被简化为      
   
  http://img.blog.csdn.net/20160426200658401?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center
由于P(x_1,....
 ,x_n)是恒定的给定的输入,我们可以使用以下的分类规则(前者正比于后者):
 
     
     
     
     
     
     
     
     
     
     
     
    http://img.blog.csdn.net/20160426200759854?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center
我们可以使用最大后验概率(MAP)来估计p(y)和p(xi|y),p(y)是在训练集中y发生的概率
不同朴素贝叶斯分类算法是因为他们对P(Xi|y)做出了不同的假设
尽管朴素贝叶斯的假设过于简单,但在已有的应用中,如文档分类和垃圾邮件分类,他都表现出了相当好的效果(至于理论上的原因,为什么朴素贝叶斯的效果很好,并且他适合处理的数据类型,请继续往下阅读)
和其他更先进的方法相比,朴素贝叶斯算法学习和分类的过程效率更高,每个类条件特征的独立分布意味着每个类分布可以独立的估计为一维分布,这反过来有助于缓解数据降维所带来的麻烦
另一方面,尽管朴素贝叶斯分类被归纳为一个高效的分类器,但是他有一个坏的估计,因为对于他的输出预测并不能被认真看待
上边提到了不同的贝叶斯分类算法是因为他们对P(Xi|y)做出了不同的假设,下面我们就来看集中常见的P(Xi|y)的假设以及scikit-learn中的实现方法
二:高斯朴素贝叶斯
GaussianNB 继承高斯朴素贝叶斯,特征可能性被假设为高斯:
 
     
     
     
     
     
     
     
     
     
     
     
   http://img.blog.csdn.net/20160426204155421?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center
代码示例如下:
 
- 
#高斯朴素贝叶斯  
- 
import numpy as np  
- 
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])  
- 
Y = np.array([1, 1, 1, 2, 2, 2])  
- 
from sklearn.naive_bayes import GaussianNB  
- 
clf = GaussianNB().fit(X, Y)  
- 
print clf.predict([[-0.8,-1]])  
- 
  
- 
''''' 
- 
partial_fit说明:增量的训练一批样本 
- 
这种方法被称为连续几次在不同的数据集,从而实现核心和在线学习,这是特别有用的,当数据集很大的时候,不适合在内存中运算 
- 
该方法具有一定的性能和数值稳定性的开销,因此最好是作用在尽可能大的数据块(只要符合内存的预算开销) 
- 
'''  
- 
clf_pf = GaussianNB().partial_fit(X, Y, np.unique(Y))  
- 
print clf_pf.predict([[-0.8,-1]])  
 
输出结果为:
 
http://img.blog.csdn.net/20160426210105784?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center
更多关于高斯贝叶斯分布的请参考:点击阅读
三:多项式分布
MultinomialNB实现multinomially分布数据的贝叶斯算法,是一个经典的朴素贝叶斯文本分类中使用的变种(其中的数据是通常表示为词向量的数量,虽然TF-IDF向量在实际项目中表现得很好),对于每一个y来说,分布通过向量http://img.blog.csdn.net/20160426212801641?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center
该参数 http://img.blog.csdn.net/20160426212655358?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center  是一个平滑的最大似然估计,即相对频率计数:
 
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
   
  http://img.blog.csdn.net/20160426212905299?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center
http://img.blog.csdn.net/20160426213055348?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center 
表示标签i在样本集T中属于类别y的 数目
http://img.blog.csdn.net/20160426213208905?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center 表示在所有标签中类别y出现的数目
平滑先验 a >=0表示学习样本中不存在的特征并防止在计算中概率为0,设置alpha =
1被称为拉普拉斯平滑,当α<1称为Lidstone平滑
代码示例如下:
 
- 
#多项式分布  
- 
import numpy as np  
- 
X = np.random.randint(5, size=(6, 100))  
- 
y = np.array([1, 2, 3, 4, 5, 6])  
- 
from sklearn.naive_bayes import MultinomialNB  
- 
clf = MultinomialNB().fit(X, y)  
- 
print clf.predict(X[2:3])  
 
输出为   [3]
 
更多关于多项式分布请参考:点击阅读
四:伯努利朴素贝叶斯
BernoulliNB实现了朴素贝叶斯训练和分类算法是根据多元伯努利分布的分布数据;例如,可能会有多个特征,但每一个被假定为一个二进制值(伯努利、布尔)变量。因此,这类要求的样品被表示为二进制值的特征向量;如果交给其他任何类型的数据,一个bernoullinb实例可以进行输入(取决于二值化参数)
伯努利朴素贝叶斯决策规则的基础上
     
     
     
     
     
     
     
     
     
     
     
   
  http://img.blog.csdn.net/20160426213936018?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center
在文本分类的情况下,词的出现向量(而不是字计数向量)可以用来训练和使用该分类。bernoullinb可能会执行一些数据集上的更好,尤其是那些短的文件。如果时间允许的话,建议对两种模型进行评估。
示例代码如下:
 
- 
#伯努利分布  
- 
import numpy as np  
- 
X = np.random.randint(2, size=(6, 100))  
- 
Y = np.array([1, 2, 3, 4, 4, 5])  
- 
from sklearn.naive_bayes import BernoulliNB  
- 
clf = BernoulliNB()  
- 
clf.fit(X, Y)  
- 
BernoulliNB(alpha=1.0, binarize=0.0, class_prior=None, fit_prior=True)  
- 
print(clf.predict(X[2:3]))  
 
 
输出结果为
 [3]							
		 
						
		加载中,请稍候......