加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

【干货】卡方检验

(2016-04-18 17:36:53)
标签:

杂谈

一、概念:

卡方检验是基于卡方分布的一种非参数检验方法,通常应用于计数资料的统计分析。卡方分布是由正态分布构造而成的一个新的分布,呈正偏态,随着参数n的增大,趋近于正态分布。卡方分布是一个连续分布,但有些离散分布也服从卡方分布。

 

二、模型:

1、假设:

H0:行分类变量与列分类变量无关联

H1:行分类变量与列分类变量有关联

H0等价假设(两分类变量之间的相关统计学上不显著):

分类变量两组间发生率没有差异

理论分布与实际分布之间没有差异

 

2、数学模型:

chi-square = sigma[(Ai-Ti)/Ti]^2     ^2指的是平方。

卡方原理与方差分析的基本思想类似,都包含了以下几个类似的基本概念:

a、  残差:(Ai-Ti)观测频数与期望频数间的差异;它表示某一个类别观测值和理论值的偏离程度。卡方的残差与方差分析中的残差(Xi-M)统计思想一致,只不过卡方对应的观测值是频数;所有观测残差总和为0,残差的平方和称之为变异。

b、  自由度:与方差分析相同,计算方式稍微有些差异

c、  卡方:所有变异度之和,变异度为变异除以自由度。

 

3、卡方的校正:

      卡方分布是一种连续型分布,而四格表资料是分类资料,属离散型分布,由此计算的卡方值的抽样分布也应当是不连续的,当样本量较小时,两者间的差异不可忽略,应进行连续性校正(在每个单元格的残差中都减去0.5)

a、  若n > 40,此时有1< T <5时,需计算Yates连续性校正(Yates' correction)卡方值;

将原始公式分子部分变为(|Ai-Ti|-0.5)即可。

b、T <1,或n<40时,应改用Fisher确切概率法(Fisher exact test)直接计算概率。

  

此外,对行列表卡方检验进行两两比较时,因为重复多次的假设检验,将使一类错误扩大,因此必须重新规定检验水准,不能再用原来的检验水准α=0.05作为拒绝的标准。校正方法如下:

c、多组间的两两比较:

α’=α/N    N=n(n-1)/2  n为参加检验的组数,α为alpha水平。

d、多个实验组与统一对照组的比较:

α’=α/(K-1)     K为实验组与对照组的组数之和。

 

三、卡方的误用:

1、配对卡方检验(McNemanr):

     分别采用甲、乙两种化验方法对同一批病人进行诊断是否存在某种疾病,比较这两种检验方法的结果(计数)是否有本质不同,此时需用配对卡方检验,即McNemanr检验。

       Kappa检验重在检验两者的一致性,配对卡方检验重在检验两者间的差异,对同一问题,这两种检验可能得出相互不同的结论,主要原因是它们的假设前提不一致。

 

2、多组的两两比较:

     当存在多组时,卡方只能证明组间是不同的,但不能说明是在哪个组间存在不同,传统的解决办法以卡方分割的方法来实现,但实际上这种方法会导致α错误的扩大化。有关卡方分割的问题还存在争议,毕竟这种方法还尚不成熟,对于这种多组比较,也有特定的对分类数据的建模方法,如Logistic模型来解决的。

 

3、顺序变量的处理:

    传统的卡方检验直接忽略分类变量的有关顺序的信息,此时卡方的结果并不可靠。

    以R×C列联表为例:

   a、单向有序的变量:秩和检验(K-S Z检验)、CMH卡方

        CMH卡方的具体例子见:http://www.tjstat.com/content.asp?id=66

   b、双向有序的变量:Spearman等级相关、CMH卡方

       CMH检验习惯上称之为扩展的mh卡方检验,主要考虑到不同实验的点的软、硬条件不同可能造成结果的不同,采用CMH检验可以解决这类问题,采用的是多中心或分层分析方法,多用于2x2  2xr  sx2及sxr的列联表的分层统计处理。

       当率是按自然顺序的等级分层时,除了可以用一般卡方检验比较各组率的差别外,若要分析率是否随分层变化而变化的趋势,可以用趋势卡方检验。若无单调性趋势,则不需作趋势卡方检验。SPSS中趋势卡方检验命令:Analyze->Descriptive Statistics->Crosstabs中Chi-square,结果中Linear-by-Linear Association对应值。

      具体实例可见:http://blog.sina.com.cn/s/blog_49961f3a0100dbhx.html

                              http://hi.baidu.com/dayijingcheng/blog/item/29b5f297fd35706854fb960e.html

                              SAS语法例子:http://www.pinggu.org/bbs/thread-277973-1-1.html

    c、CMH卡方:分层卡方检验SPSS菜单命令:Analyze->Descriptive Statistics->Crosstabs将分层选入layer;在选项中选中Chi-square,以及界面最下面一行的Cochran。。。即可,结果中查看C卡方,它是MH卡方的校正值。

 

4、适用条件与补充:

    理论频数不宜太小,一般认为不宜有1/5以上格子的理论频数小于5或有一个格子的理论频数小于1。

a、不太理想的办法

    与邻近行或列中的实际频数合并

    删去理论频数太小的格子所对应的行或列

b、最理想的办法

    增加样本含量以增大理论频数(可能吗)

     确切概率法

 

    确切概率法不属于卡方检验的范畴,但常作为卡方检验应用上的补充。确切概率法的原理具有通用性,对于四格表以外的情况也适用,如列联表、配对、配伍表格均可。但对于较大的列联表,确切概率法的计算量将变得十分惊人,有可能超出硬件系统可以支持的范围。此时可以采用计算统计学中的其他抽样技术加以解决,如Bootstrap方法等。

 

5、多个分类变量

    再去考虑卡方的问题,这个问题就复杂化了。嵌套模型卡方检验(Nested chi-square difference test)(Wong 1994)?非要整的这么复杂的话,为什么不去考虑Logistic模型。

0

阅读 收藏 喜欢 打印举报/Report
前一篇:序列模式挖掘
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有