一、概念:
卡方检验是基于卡方分布的一种非参数检验方法,通常应用于计数资料的统计分析。卡方分布是由正态分布构造而成的一个新的分布,呈正偏态,随着参数n的增大,趋近于正态分布。卡方分布是一个连续分布,但有些离散分布也服从卡方分布。
二、模型:
1、假设:
H0:行分类变量与列分类变量无关联
H1:行分类变量与列分类变量有关联
H0等价假设(两分类变量之间的相关统计学上不显著):
分类变量两组间发生率没有差异
理论分布与实际分布之间没有差异
2、数学模型:
chi-square = sigma[(Ai-Ti)/Ti]^2
^2指的是平方。
卡方原理与方差分析的基本思想类似,都包含了以下几个类似的基本概念:
a、
残差:(Ai-Ti)观测频数与期望频数间的差异;它表示某一个类别观测值和理论值的偏离程度。卡方的残差与方差分析中的残差(Xi-M)统计思想一致,只不过卡方对应的观测值是频数;所有观测残差总和为0,残差的平方和称之为变异。
b、 自由度:与方差分析相同,计算方式稍微有些差异
c、 卡方:所有变异度之和,变异度为变异除以自由度。
3、卡方的校正:
卡方分布是一种连续型分布,而四格表资料是分类资料,属离散型分布,由此计算的卡方值的抽样分布也应当是不连续的,当样本量较小时,两者间的差异不可忽略,应进行连续性校正(在每个单元格的残差中都减去0.5)
a、 若n > 40,此时有1< T
<5时,需计算Yates连续性校正(Yates' correction)卡方值;
将原始公式分子部分变为(|Ai-Ti|-0.5)即可。
b、T <1,或n<40时,应改用Fisher确切概率法(Fisher
exact test)直接计算概率。
此外,对行列表卡方检验进行两两比较时,因为重复多次的假设检验,将使一类错误扩大,因此必须重新规定检验水准,不能再用原来的检验水准α=0.05作为拒绝的标准。校正方法如下:
c、多组间的两两比较:
α’=α/N N=n(n-1)/2
n为参加检验的组数,α为alpha水平。
d、多个实验组与统一对照组的比较:
α’=α/(K-1)
K为实验组与对照组的组数之和。
三、卡方的误用:
1、配对卡方检验(McNemanr):
分别采用甲、乙两种化验方法对同一批病人进行诊断是否存在某种疾病,比较这两种检验方法的结果(计数)是否有本质不同,此时需用配对卡方检验,即McNemanr检验。
Kappa检验重在检验两者的一致性,配对卡方检验重在检验两者间的差异,对同一问题,这两种检验可能得出相互不同的结论,主要原因是它们的假设前提不一致。
2、多组的两两比较:
当存在多组时,卡方只能证明组间是不同的,但不能说明是在哪个组间存在不同,传统的解决办法以卡方分割的方法来实现,但实际上这种方法会导致α错误的扩大化。有关卡方分割的问题还存在争议,毕竟这种方法还尚不成熟,对于这种多组比较,也有特定的对分类数据的建模方法,如Logistic模型来解决的。
3、顺序变量的处理:
传统的卡方检验直接忽略分类变量的有关顺序的信息,此时卡方的结果并不可靠。
以R×C列联表为例:
a、单向有序的变量:秩和检验(K-S
Z检验)、CMH卡方
CMH卡方的具体例子见:http://www.tjstat.com/content.asp?id=66
b、双向有序的变量:Spearman等级相关、CMH卡方
CMH检验习惯上称之为扩展的mh卡方检验,主要考虑到不同实验的点的软、硬条件不同可能造成结果的不同,采用CMH检验可以解决这类问题,采用的是多中心或分层分析方法,多用于2x2
2xr
sx2及sxr的列联表的分层统计处理。
当率是按自然顺序的等级分层时,除了可以用一般卡方检验比较各组率的差别外,若要分析率是否随分层变化而变化的趋势,可以用趋势卡方检验。若无单调性趋势,则不需作趋势卡方检验。SPSS中趋势卡方检验命令:Analyze->Descriptive
Statistics->Crosstabs中Chi-square,结果中Linear-by-Linear
Association对应值。
具体实例可见:http://blog.sina.com.cn/s/blog_49961f3a0100dbhx.html
http://hi.baidu.com/dayijingcheng/blog/item/29b5f297fd35706854fb960e.html
SAS语法例子:http://www.pinggu.org/bbs/thread-277973-1-1.html
c、CMH卡方:分层卡方检验SPSS菜单命令:Analyze->Descriptive
Statistics->Crosstabs将分层选入layer;在选项中选中Chi-square,以及界面最下面一行的Cochran。。。即可,结果中查看C卡方,它是MH卡方的校正值。
4、适用条件与补充:
理论频数不宜太小,一般认为不宜有1/5以上格子的理论频数小于5或有一个格子的理论频数小于1。
a、不太理想的办法
与邻近行或列中的实际频数合并
删去理论频数太小的格子所对应的行或列
b、最理想的办法
增加样本含量以增大理论频数(可能吗)
确切概率法
确切概率法不属于卡方检验的范畴,但常作为卡方检验应用上的补充。确切概率法的原理具有通用性,对于四格表以外的情况也适用,如列联表、配对、配伍表格均可。但对于较大的列联表,确切概率法的计算量将变得十分惊人,有可能超出硬件系统可以支持的范围。此时可以采用计算统计学中的其他抽样技术加以解决,如Bootstrap方法等。
5、多个分类变量
再去考虑卡方的问题,这个问题就复杂化了。嵌套模型卡方检验(Nested chi-square difference
test)(Wong 1994)?非要整的这么复杂的话,为什么不去考虑Logistic模型。
加载中,请稍候......