本周首先对C4.5的算法步骤进行了梳理:
Step1.对数据源进行数据预处理,将连续型的属性变量进行离散化处理形成决策树的训练集(如果没有连续取
值的属性则忽略);
(1)根据原始数据,找到该连续型属性的最小取值a0。、最大取值a(n+1) ;
(2)在区间[a,b]内插入n个数值等分为n+1个小区间;
(3)分别以ai,i=l,2,⋯ ,n为分段点,将区间【a0, a(n+1)
】划分为两个子区间:
Step2.计算每个属性的信息增益和信息增益率;
(1)计算属性A的信息增益Gain(A)
信息增益Gain(A)的计算和ID3算法中的完全一致;
(2)计算属性A的信息增益率Gain—Ratio(A)
Gain—Ratio(A)= Gain(A)/I(A)
对于取值连续的属性而言,分别计算以ai
(i=l,2,⋯,n)为分割点,对应分类的信息增益率,选择最大信息
增益率对应的n ,作为该属性分类的分割点。
选择信息增益率最大的属性,作为当前的属性节点,得到决策树的根节点。
Step3.根节点属性每一个可能的取值对应一个子集,对样本子集递归地执行以上Step2过程,直到划分的每个
子集中的观测数据在分类属性上取值都相同,生成决策树。
Step4.根据构造的决策树提取分类规则,对新的数据集进行分类。
随后对数据挖掘十大算法之一的另一个进行了研究——CART算法。
CART算法是决策树算法中的一种,基本理论与C4.5算法类似,也是一种比较经典的决策树算法。
1.背景:
分类与回归树(CART——Classification
And Regression Tree) )
是一种非常有趣并且十分有效的非参数分类和回归方法。它通过构建二叉树达到预测目的。该方法是四位美国统计学家耗时十多年辛勤劳动的成果。在他们所著的“Classification
And Regression Tree(1 9 8 4) ”一书中有该方法的详细说明。
分类与回归树CART 模型最早由Breiman
等人提出,已经在统计领域和数据挖掘技术中普遍使用。它采用与传统统计学完全不同的方式构建预测准则,它是以二叉树的形式给出,易于理解、使用和解释。由CART
模型构建的预测树在很多情况下比常用的统计方法构建的代数学预测准则更加准确,且数据越复杂、变量越多,算法的优越性就越显著。模型的关键是预测准则的构建,准确的。
2.定义:
分类和回归首先利用已知的多变量数据构建预测准则,
进而根据其它变量值对一个变量进行预测。在分类中, 人们往往先对某一客体进行各种测量,
然后利用一定的分类准则确定该客体归属那一类。例如, 给定某一化石的鉴定特征, 预测该化石属那一科、那一属,
甚至那一种。另外一个例子是, 已知某一地区的地质和物化探信息, 预测该区是否有矿。回归则与分类不同, 它被用来预测客体的某一数值,
而不是客体的归类。例如, 给定某一地区的矿产资源特征, 预测该区的资源量。
P.S.下两周主要对C4.5算法进行应用,阅读《基于C4.5决策树的流量分类方法》和《基于C4.5算法的数据挖掘应用研究》进行理论实践,并尝试用软件运行;同时了解CART的预测准则和应用范围。
加载中,请稍候......