第十一讲 四格表资料卡方检验
(2013-03-30 21:23:13)第十一讲四格表资料卡方检验
(精鼎数据分析:http://www.datajd.com)
一、卡方检验的基本概念
卡方检验 (chi-square test) 是一种用途广泛的假设检验方法,常用于分类变量资料(计数资料),推断两个及多个总体率或构成比之间有无差别;两个变量或两个属性之间有无关联性;以及频数分布的拟合优度检验。其基本公式与 分布如下:
卡方检验的统计量称之为 (读作卡方),描述了实际数与理论数的吻合程度。 检验基本公式为:
A:实际观察频数,即实际观察例数;T:理论频数,即根据检验假设所计算出的理论上发生例数。
在一个自由度一定的总体中抽样而计算出的一系列值,其频数分布即为 分布。 分布的曲线是不对称曲线,其形状随着自由度的变化而变化,自由度增大,图形右移。当P值一定时,自由度 越大, 值越大;而自由度一定时,P值越小,值越大,参见表3-10。
当自由度 时,对应于为0.05的 界限值等于3.84 (即 ),记作 ;对应于 为0.01的 界限值等于6.63 (即 ),记作。
二、卡方检验方法
(一)四格表资料的 检验
1.卡方检验的基本思想
例3.20 某医师观察两种药物驱钩虫的效果,驱虫后转阴率见表3-9,问两药转阴率有无差别?
表3-9
药 物 |
转阴例数 |
阳性例数 |
合计 |
转阴率% |
A |
21(33.23) |
39(26.77) |
60 |
0.3500 |
B |
51(38.77) |
19(31.23) |
70 |
0.7285 |
合 计 |
72 |
58 |
30 |
0.5538 |
表3-9中,两组转阴例数和阳性例数是基本数据,为实际(频)数(actual frequency),记为A;其余数据均是由这四个数据推算出来的,故称之为四格表。为方便起见,常将其命名为:
现在欲回答两药转阴率有无差别,首先假设两药总体转阴率相等,即假设两药的疗效,转阴率相等,且均等于平均(合计)转阴率55.38%(72/130)。这样A药治疗60例,其理论转阴例数为 ;B药治疗70例的理论转阴例数是 。仿此可推算出两药驱虫后仍为阳性的理论例数分别是26.77和31.23。
上述计算结果称为理论频数(theoretical frequency),简称理论数,记为T 。理论数的计算可用公式3.28:
式中表示第r行(row)第c列(colum)对应格子的理论数, 为该格所在行的行合计,为该格所在列的列合计。如上例:
; ; 余下计算依此类推。
基于上述检验假设,推断两药转阴率是否有差别演绎成比较实际数与理论数之间的吻合程度。如果假设检验成立,则实际数与理论数之差一般不会很大,从而出现大值的概率P很小,若 ,在此的检验水准上,拒绝检验假设;若 ,则没有理由拒绝它。
但是,的大小,不仅决定于A-T的差值大小,还与格子数有关。实际数与理论数的格子数越多,值也会越大。因此,为了正确反映A与T的吻合程度,需要考虑到自由度对 值的影响。 四格表的自由度 ,对于行×列 ( )表,自由度可用公式3.39计算:
计算出来的值所对应的概率大小,可根据不同的自由度查相应的 分布界值表(表3-10)。
2. 四格表资料 检验的公式:四格表资料的两总体率的检验,除了可以用基本公式 外,还可以用四格表资料的专用公式(3.30):
式中分母为四格表资料的4个边合计值。该公式是通过基本公式3.27推导出来的,不考虑计算上四舍五入所致的误差,则两式计算结果完全相同。由于在应用四格表资料专用公式时,不需要事先计算出每格的理论数,因此其计算过程比用基本公式要简单一些。
3. 四格表资料检验的校正条件及校正公式
(1) 当 ,只要有一个格子的理论数为时,需用 检验校正公式;
(2) 当 ,或有任一个格子的理论数为时,应改用四格表资料的确切概率法(请参考其他书籍)。
校正的基本公式:
校正的专用公式:
4. 例题分析
(1)
H0:
H1:
(2)
根据式(3.27)计算所有格子的理论数,每格 ,且,所以不需用校正公式。
首先用基本公式计算:
= 18.738
或,用四格表专用公式计算:
由此可见两式计算结果相同,可任选一个公式计算。
(3)
四格表资料 ,经查 界值表 ,。 因为 =18.738>6.63,所以P<0.01。在 的水准上,拒绝H0,接受H1,认为两种药物驱钩虫的疗效差别具有高度统计学意义。
例3.22 有人在某年对某地区60-70岁以及70岁以上组老年人进行多发性脑梗塞性痴呆 (MID) 的流行病学调查,所得两个年龄组的患病率的资料如下,问两年龄组的患病率是否不同?
表 3-11
年龄组(岁) |
患病人数 |
正常人数 |
调查人数 |
患病率(%) |
60- |
5(9.57) |
1017 (1012.43) |
1022 |
|
70 |
8(3.43) |
359 (363.57) |
|
|
合 计 |
13 |
1376 |
1389 |
|
(1) 建立检验假设:
H0:
H1:
(2) 计算统计量值:
本例c格的理论数最小,等于3.43<5。所以要用校正公式。
首先用基本公式计算:
= 8.324
或,用四格表专用公式计算:
= 8.324
(3) 确定P值和作出推断结论:
四格表资料 ,查 界值表, 。因为 =8.324>6.63,所以P<0.01。在 的水准上,拒绝H0,接受H1,认为两组老年人的MDI患病率的差异具有高度统计学意义,患病率不同。
----------(精鼎数据分析:http://www.datajd.com)-----------