机器学习笔记(四)朴素贝叶斯法和决策树

标签:
杂谈 |
分类: 机器学习 |
1.朴素贝叶斯法
http://s3/mw690/62b0682ag7bafb02ae3d2&690,j=1,...n;l=1,...,Sj;k=1,...K
朴素贝叶斯法是基于贝叶斯定理和特征条件独立假设的分类方法。给定训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布,然后根据此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。
朴素贝叶斯法属于生成方法,关键在于找到输入输出的联合分布,或者说确定联合分布的参数也就确定了联合分布。在特征条件独立的假设下,对每一个特征通过频率求解其条件概率分布,这些条件概率分布最终用于求解后验概率。
开始之前最好先回顾一下条件概率公式和全概率公式,它们是计算贝叶斯模型的基础。
条件概率wiki的链接:http://zh.wikipedia.org/wiki/条件分布
给定有限训练样本集,输入为特征向量,输出为类标记,在朴素贝叶斯方法中将输入和输出定义为在输入空间和输出空间的随机变量X和Y,贝叶斯方法在变量之上学习联合分布P(X,Y),具体地,学习先验概率分布http://s2/mw690/62b0682agd4bda74f3ae1&690,K是标签的种类。
假设特征条件独立,则条件概率分布可写成:
这样的话,给定一个实例x,我们就可以得到在该实例给定下类标是各个值得概率,选择概率最大的类标最为该实例的类标,用公式表示如下:
需要知道的一点:
朴素贝叶斯法将实例分到后验概率最大的类中,等价于0-1损失函数时的期望风险最小化。
这里肯定会有疑问,训练数据集在哪里?
别急,上面只是给了模型的数学推导过程,具体求解各个分布的参数时才使用到训练数据集。
a.先验概率的极大似然估计:
http://s10/mw690/62b0682agd4dcc0cbe5b9&690
b.设第j个特征可能取值的集合为{http://s11/mw690/62b0682ag050a036791da&690的极大似然估计为:
b.设第j个特征可能取值的集合为{http://s11/mw690/62b0682ag050a036791da&690的极大似然估计为:
即通过训练数据集中各类中不同特征出现的频率比值作为该特征的条件概率,这里假设类条件下各特征独立的作用就显而易见了。
c.贝叶斯估计
由于,概率分布的计算是基于频率的,因此在对某个实例预测时,很可能输入的特征在训练数据集的特征中找不到对应的值,所以概率就会为零,解决这一问题的方法是采用贝叶斯估计,在分子和分母上加入一个参数:
等价于在随机变量各个取值的频数上赋予一个正整数http://s15/mw690/62b0682agd4dcfd32ea8e&690。其值为零就是极大似然估计,其值为1就是拉普拉斯平滑。
这个时候注意,先验概率变成了:
http://s3/mw690/62b0682agd4dd1b510ba2&690
无论是极大似然估计还是贝叶斯估计,都满足概率分布的条件,即所有概率之和为1,满足结合律。
总结一下朴素贝叶斯模型就是先通过训练数据集计算先验概率分布和条件概率分布,得到联合概率分布,然后通过联合概率分布求得后验概率分布。概率估计的方法可以是极大似然估计或贝叶斯估计。
无论是极大似然估计还是贝叶斯估计,都满足概率分布的条件,即所有概率之和为1,满足结合律。
总结一下朴素贝叶斯模型就是先通过训练数据集计算先验概率分布和条件概率分布,得到联合概率分布,然后通过联合概率分布求得后验概率分布。概率估计的方法可以是极大似然估计或贝叶斯估计。
2.决策树模型
决策树模型也属于生成模型,是一种特殊的二叉树。树上的节点分为叶子节点和内部节点(非叶子结点),内部节点表示特征和属性,叶子节点表示类,可以这样理解,内部节点把特征空间划分开来,叶子节点则一般为同类的样本集合。每个从决策树顶点到叶子节点的路径就是一个判别过程,该路径把一个实例和类标对应了起来。if-zhen规则下的决策树模型满足完备性和互斥性,完备性表示对每个输入实例都能找到一条路径求得其类标,互斥性表示这样的路径对于确定的决策树是唯一的。条件概率分布下的决策树则未必,。
决策树模型的分类过程如下:
从根节点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子节点,子节点对应着该特征的一个取值,然后递归的进行下去,直到到达叶子节点,最终实例被分到叶子节点的类中。
后一篇:ELM算法1