【干货】卡方检验_中颢润数据分析师事务所

http://blog.sina.com.cn/u/2611708901

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

【干货】卡方检验

(2016-04-18 17:36:53)

标签：

杂谈

一、概念：

卡方检验是基于卡方分布的一种非参数检验方法，通常应用于计数资料的统计分析。卡方分布是由正态分布构造而成的一个新的分布，呈正偏态，随着参数n的增大，趋近于正态分布。卡方分布是一个连续分布，但有些离散分布也服从卡方分布。

二、模型：

1、假设：

H0：行分类变量与列分类变量无关联

H1：行分类变量与列分类变量有关联

H0等价假设（两分类变量之间的相关统计学上不显著）：

分类变量两组间发生率没有差异

理论分布与实际分布之间没有差异

2、数学模型：

chi-square = sigma[(Ai-Ti)/Ti]^2 ^2指的是平方。

卡方原理与方差分析的基本思想类似，都包含了以下几个类似的基本概念：

a、残差：（Ai-Ti）观测频数与期望频数间的差异；它表示某一个类别观测值和理论值的偏离程度。卡方的残差与方差分析中的残差（Xi-M）统计思想一致，只不过卡方对应的观测值是频数；所有观测残差总和为0，残差的平方和称之为变异。

b、自由度：与方差分析相同，计算方式稍微有些差异

c、卡方：所有变异度之和，变异度为变异除以自由度。

3、卡方的校正：

卡方分布是一种连续型分布，而四格表资料是分类资料，属离散型分布，由此计算的卡方值的抽样分布也应当是不连续的，当样本量较小时，两者间的差异不可忽略，应进行连续性校正（在每个单元格的残差中都减去0.5）

a、若n > 40，此时有1< T <5时，需计算Yates连续性校正（Yates' correction）卡方值；

将原始公式分子部分变为（|Ai-Ti|-0.5）即可。

b、T <1，或n<40时，应改用Fisher确切概率法（Fisher exact test）直接计算概率。

此外，对行列表卡方检验进行两两比较时，因为重复多次的假设检验，将使一类错误扩大，因此必须重新规定检验水准，不能再用原来的检验水准α=0.05作为拒绝的标准。校正方法如下：

c、多组间的两两比较：

α’=α/N N=n(n-1)/2 n为参加检验的组数，α为alpha水平。

d、多个实验组与统一对照组的比较：

α’=α/(K-1) K为实验组与对照组的组数之和。

三、卡方的误用：

1、配对卡方检验（McNemanr）：

分别采用甲、乙两种化验方法对同一批病人进行诊断是否存在某种疾病，比较这两种检验方法的结果（计数）是否有本质不同，此时需用配对卡方检验，即McNemanr检验。

Kappa检验重在检验两者的一致性，配对卡方检验重在检验两者间的差异，对同一问题，这两种检验可能得出相互不同的结论，主要原因是它们的假设前提不一致。

2、多组的两两比较：

当存在多组时，卡方只能证明组间是不同的，但不能说明是在哪个组间存在不同，传统的解决办法以卡方分割的方法来实现，但实际上这种方法会导致α错误的扩大化。有关卡方分割的问题还存在争议，毕竟这种方法还尚不成熟，对于这种多组比较，也有特定的对分类数据的建模方法，如Logistic模型来解决的。

3、顺序变量的处理：

传统的卡方检验直接忽略分类变量的有关顺序的信息，此时卡方的结果并不可靠。

以R×C列联表为例：

a、单向有序的变量：秩和检验（K-S Z检验）、CMH卡方

CMH卡方的具体例子见：http://www.tjstat.com/content.asp?id=66

b、双向有序的变量：Spearman等级相关、CMH卡方

CMH检验习惯上称之为扩展的mh卡方检验，主要考虑到不同实验的点的软、硬条件不同可能造成结果的不同，采用CMH检验可以解决这类问题，采用的是多中心或分层分析方法，多用于2x2 2xr sx2及sxr的列联表的分层统计处理。

当率是按自然顺序的等级分层时，除了可以用一般卡方检验比较各组率的差别外，若要分析率是否随分层变化而变化的趋势，可以用趋势卡方检验。若无单调性趋势，则不需作趋势卡方检验。SPSS中趋势卡方检验命令：Analyze->Descriptive Statistics->Crosstabs中Chi-square，结果中Linear-by-Linear Association对应值。

具体实例可见：http://blog.sina.com.cn/s/blog_49961f3a0100dbhx.html

http://hi.baidu.com/dayijingcheng/blog/item/29b5f297fd35706854fb960e.html

SAS语法例子：http://www.pinggu.org/bbs/thread-277973-1-1.html

c、CMH卡方：分层卡方检验SPSS菜单命令：Analyze->Descriptive Statistics->Crosstabs将分层选入layer；在选项中选中Chi-square，以及界面最下面一行的Cochran。。。即可，结果中查看C卡方，它是MH卡方的校正值。

4、适用条件与补充：

理论频数不宜太小，一般认为不宜有1/5以上格子的理论频数小于5或有一个格子的理论频数小于1。

a、不太理想的办法

与邻近行或列中的实际频数合并

删去理论频数太小的格子所对应的行或列

b、最理想的办法

增加样本含量以增大理论频数（可能吗）

确切概率法

确切概率法不属于卡方检验的范畴，但常作为卡方检验应用上的补充。确切概率法的原理具有通用性，对于四格表以外的情况也适用，如列联表、配对、配伍表格均可。但对于较大的列联表，确切概率法的计算量将变得十分惊人，有可能超出硬件系统可以支持的范围。此时可以采用计算统计学中的其他抽样技术加以解决，如Bootstrap方法等。

5、多个分类变量

再去考虑卡方的问题，这个问题就复杂化了。嵌套模型卡方检验(Nested chi-square difference test)（Wong 1994）？非要整的这么复杂的话，为什么不去考虑Logistic模型。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：序列模式挖掘

后一篇：模糊综合评价法

新浪BLOG意见反馈留言板　欢迎批评指正