加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

[算法]CHAID/Exhaustive CHAID算法迭代步骤

(2011-05-22 21:51:20)
标签:

宋体

合成类

合并

连续变量

分裂

分类: 数理统计

Chi-squared Automatic Interaction Detector

目标指标可以是顺序变量、名义变量和连续变量

解释指标要求是顺序变量或名义变量,假如输入变量是连续型的,则自动转化为顺序型的

CHAID算法迭代过程

合并步:

对于每个解释变量X,合并非显著差异的分类。如果X被选为分裂变量,X的各个最终分类将成为子节点。在分裂步用到的调整P值也是在这一步计算。

1、  如果变量X只有一类,停止计算并且设置调整P1

2、  如果变量X2类,跳到第8步。

3、  如果X大于等于2类,找出X中合适的并且具有最小显著差异的两对类别(顺序型变量中相邻的两类为合适的,对于名义变量,任意两类都合适)。最小显著差异的两类指的是在统计检验中具有最大的P(应用一对分类)。

4、  对于具有最大P值的一对分类,检查该P是否大于用户设定的显著水平a1。如果大于a1,这一对分类合并为一个合成类。这时候变量X便形成了一个新的分类。如果不大于a1,跳到第7步。

5、  (可选)如果新形成的合成类包含了三个以上原始类,则找出合成类中最优的二分类点(P值最小的),假如对应的P不大于用户设定的显著水平a2,执行该分裂。

6、  返回第2步。

7、  (可选)任何具有太少观察值(小于用户设定的最小分割大小)的类别将合并到与其最为相似(具有最大的P值)的其他类别中。

8、  应用Bonferroni方法计算合并好的分类的调整P值(应用所有分类)。

分裂步:

每个解释变量的最优分裂值已经在合并步中确定,分裂步则要确定哪个解释变量作为分裂节点。通过比较每个解释变量的调整P值可以确定最优分裂变量,调整P值在合并步中已经计算出来。

1、  选择具有最小调整P值的解释变量。

2、  如果该调整P小于等于用户设定的显著水平a3,则使用该解释变量分裂节点。否则,不分裂并且考虑作为叶子节点。

注:分裂步的P值和合并步的P值不同点在于合并步只需要一对分类计算P值,分裂步需要所有分类计算P值。

穷举型CHAID算法:

合并步使用了穷举搜索过程去合并任何一对相似类,直到只剩下一对。

合并步:

1、  如果变量X只有一类,停止计算并且设置调整P1

2、  index=0.基于目前X的分类计算P值。称Ppindex=p0)。

3、  找出X中符合规则并且具有最小显著差异的两对类别。最小显著差异的两类指的是在统计检验中具有最大的P(应用一对分类)。

4、  合并第3步确定的具有最大P值的分类对为一个合成类。(区别点)

5、  (可选)如果新形成的合成类包含了三个以上原始类,则找出合成类中最优的二分类点(P值最小的),如果对应的P值比前一步中合并此合成类的P值大,执行该分裂。(Clementine没有这一步)

6、  更新index=index+1,基于目前X的分类计算新的P值,并赋予pindex)。

7、  重复第3步到第6步直到只剩两大类。在所有的index中,找到使pindex)值最小的分类方式。

8、  (可选)任何具有太少观察值(小于用户设定的最小分割大小)的类别将合并到与其最为相似(具有最大的P值)的其他类别中。

9、  应用Bonferroni方法计算合并好的分类的调整P值(应用所有分类)。

注:CHAID算法不同点在于,没有用户设定的显著水平a1a2,只需要a3.

 ---------------------------------------------

它的基本算法是一个不断合并和拆分的过程,每一个自变量每个水平都要两两配对比较,如果两个类别相似的话就划归为一类。相似的标准就是和正常的分布比较(即认为两类的响应率是一样的)进行χ2检验,如果比较的结果是没有差别的话,就合并为一组,如果有差别就不能够划分为一组。然而当合并完成后,还要考虑到拆分问题,因为我们只涉及两两比较,而没有考虑到多项比较,可能某些类别经过多元比较之后有差别但却分在同一类。拆分反复进行,直到每一个划分的类别中两两类别之间没有差异。

对等级和连续变量和类别的变量拆分标准是不一样的。对于类别数据拆分是两两比较,对于连续变量和等级变量,需要首先分析数据的分布趋势找到一些变化大的拐点,然后根据这样一些拐点进行拆分,之后只能是相邻的类别被合并,而不是每一个一样的点都被合并。比如,年龄为10岁的和年龄为55岁的人群,如果他们对因变量的预测是一样的,但是因为他们不相邻,所以他们会被划分到不同的类别当中。由于类别变量、等级变量以及连续变量的拆分方法不同,如果我们在研究中不做区分,结果会很不准确。

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有