[算法]CHAID/Exhaustive CHAID算法迭代步骤_Lesong

http://blog.sina.com.cn/u/1826622843

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

[算法]CHAID/Exhaustive CHAID算法迭代步骤

(2011-05-22 21:51:20)

标签：

宋体

合成类

合并

连续变量

分裂

分类：数理统计

Chi-squared Automatic Interaction Detector

目标指标可以是顺序变量、名义变量和连续变量

解释指标要求是顺序变量或名义变量，假如输入变量是连续型的，则自动转化为顺序型的

CHAID算法迭代过程

合并步：

对于每个解释变量X，合并非显著差异的分类。如果X被选为分裂变量，X的各个最终分类将成为子节点。在分裂步用到的调整P值也是在这一步计算。

1、如果变量X只有一类，停止计算并且设置调整P为1。

2、如果变量X有2类，跳到第8步。

3、如果X大于等于2类，找出X中合适的并且具有最小显著差异的两对类别（顺序型变量中相邻的两类为合适的，对于名义变量，任意两类都合适）。最小显著差异的两类指的是在统计检验中具有最大的P值（应用一对分类）。

4、对于具有最大P值的一对分类，检查该P值是否大于用户设定的显著水平a1。如果大于a1，这一对分类合并为一个合成类。这时候变量X便形成了一个新的分类。如果不大于a1，跳到第7步。

5、（可选）如果新形成的合成类包含了三个以上原始类，则找出合成类中最优的二分类点（P值最小的），假如对应的P值不大于用户设定的显著水平a2，执行该分裂。

6、返回第2步。

7、（可选）任何具有太少观察值（小于用户设定的最小分割大小）的类别将合并到与其最为相似（具有最大的P值）的其他类别中。

8、应用Bonferroni方法计算合并好的分类的调整P值（应用所有分类）。

分裂步：

每个解释变量的最优分裂值已经在合并步中确定，分裂步则要确定哪个解释变量作为分裂节点。通过比较每个解释变量的调整P值可以确定最优分裂变量，调整P值在合并步中已经计算出来。

1、选择具有最小调整P值的解释变量。

2、如果该调整P值小于等于用户设定的显著水平a3，则使用该解释变量分裂节点。否则，不分裂并且考虑作为叶子节点。

注：分裂步的P值和合并步的P值不同点在于合并步只需要一对分类计算P值，分裂步需要所有分类计算P值。

穷举型CHAID算法：

合并步使用了穷举搜索过程去合并任何一对相似类，直到只剩下一对。

合并步：

1、如果变量X只有一类，停止计算并且设置调整P为1。

2、设index=0.基于目前X的分类计算P值。称P值p（index）=p（0）。

3、找出X中符合规则并且具有最小显著差异的两对类别。最小显著差异的两类指的是在统计检验中具有最大的P值（应用一对分类）。

4、合并第3步确定的具有最大P值的分类对为一个合成类。（区别点）

5、（可选）如果新形成的合成类包含了三个以上原始类，则找出合成类中最优的二分类点（P值最小的），如果对应的P值比前一步中合并此合成类的P值大，执行该分裂。(Clementine没有这一步)

6、更新index=index+1，基于目前X的分类计算新的P值，并赋予p（index）。

7、重复第3步到第6步直到只剩两大类。在所有的index中，找到使p（index）值最小的分类方式。

8、（可选）任何具有太少观察值（小于用户设定的最小分割大小）的类别将合并到与其最为相似（具有最大的P值）的其他类别中。

9、应用Bonferroni方法计算合并好的分类的调整P值（应用所有分类）。

注：和CHAID算法不同点在于，没有用户设定的显著水平a1和a2，只需要a3.

---------------------------------------------

它的基本算法是一个不断合并和拆分的过程，每一个自变量每个水平都要两两配对比较，如果两个类别相似的话就划归为一类。相似的标准就是和正常的分布比较（即认为两类的响应率是一样的）进行χ2检验，如果比较的结果是没有差别的话，就合并为一组，如果有差别就不能够划分为一组。然而当合并完成后，还要考虑到拆分问题，因为我们只涉及两两比较，而没有考虑到多项比较，可能某些类别经过多元比较之后有差别但却分在同一类。拆分反复进行，直到每一个划分的类别中两两类别之间没有差异。

对等级和连续变量和类别的变量拆分标准是不一样的。对于类别数据拆分是两两比较，对于连续变量和等级变量，需要首先分析数据的分布趋势找到一些变化大的拐点，然后根据这样一些拐点进行拆分，之后只能是相邻的类别被合并，而不是每一个一样的点都被合并。比如，年龄为10岁的和年龄为55岁的人群，如果他们对因变量的预测是一样的，但是因为他们不相邻，所以他们会被划分到不同的类别当中。由于类别变量、等级变量以及连续变量的拆分方法不同，如果我们在研究中不做区分，结果会很不准确。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：[算法]Naive Bayes 朴素贝叶斯算法

后一篇：[转载]Birch算法

新浪BLOG意见反馈留言板　欢迎批评指正