加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

第十一讲 四格表资料卡方检验

(2013-03-30 21:23:13)

第十一讲四格表资料卡方检验

精鼎数据分析http://www.datajd.com

 

一、卡方检验的基本概念  

卡方检验 (chi-square test) 是一种用途广泛的假设检验方法,常用于分类变量资料(计数资料),推断两个及多个总体率或构成比之间有无差别;两个变量或两个属性之间有无关联性;以及频数分布的拟合优度检验。其基本公式与 分布如下:

卡方检验的统计量称之为 (读作卡方),描述了实际数与理论数的吻合程度。 检验基本公式为:

                                             (3.27)

A:实际观察频数,即实际观察例数;T:理论频数,即根据检验假设所计算出的理论上发生例数。

在一个自由度一定的总体中抽样而计算出的一系列值,其频数分布即为 分布。 分布的曲线是不对称曲线,其形状随着自由度的变化而变化,自由度增大,图形右移。当P值一定时,自由度 越大, 值越大;而自由度一定时,P值越小,值越大,参见表3-10

当自由度 时,对应于为0.05的 界限值等于3.84 (),记作 ;对应于 为0.01的 界限值等于6.63 (),记作。

二、卡方检验方法

()四格表资料的 检验

1.卡方检验的基本思想  以四格表(fourfold table)为例。

3.20 某医师观察两种药物驱钩虫的效果,驱虫后转阴率见表3-9,问两药转阴率有无差别?

3-9  两药驱钩虫效果比较

药 物

转阴例数

阳性例数

合计

转阴率%

A

21(33.23)

39(26.77)

60

0.3500

B

51(38.77)

19(31.23)

70

0.7285

合 计

72

58

30

0.5538

 

3-9中,两组转阴例数和阳性例数是基本数据,为实际()(actual frequency),记为A;其余数据均是由这四个数据推算出来的,故称之为四格表。为方便起见,常将其命名为:

现在欲回答两药转阴率有无差别,首先假设两药总体转阴率相等,即假设两药的疗效,转阴率相等,且均等于平均(合计)转阴率55.38%(72/130)。这样A药治疗60例,其理论转阴例数为 ;B药治疗70例的理论转阴例数是 。仿此可推算出两药驱虫后仍为阳性的理论例数分别是26.7731.23

上述计算结果称为理论频数(theoretical frequency),简称理论数,记为T 。理论数的计算可用公式3.28

                                                   (3.28)

式中表示第r(row)c(colum)对应格子的理论数, 为该格所在行的行合计,为该格所在列的列合计。如上例:

; ; 余下计算依此类推。

基于上述检验假设,推断两药转阴率是否有差别演绎成比较实际数与理论数之间的吻合程度。如果假设检验成立,则实际数与理论数之差一般不会很大,从而出现大值的概率P很小,若 ,在此的检验水准上,拒绝检验假设;若 ,则没有理由拒绝它。

但是,的大小,不仅决定于A-T的差值大小,还与格子数有关。实际数与理论数的格子数越多,值也会越大。因此,为了正确反映AT的吻合程度,需要考虑到自由度对 值的影响。 四格表的自由度 ,对于行×列 ( )表,自由度可用公式3.39计算:

  =(行数-1)(列数-1)                           (3.29)

计算出来的值所对应的概率大小,可根据不同的自由度查相应的 分布界值表(3-10)

2. 四格表资料 检验的公式:四格表资料的两总体率的检验,除了可以用基本公式 外,还可以用四格表资料的专用公式(3.30)

 

                                (3.30)

式中分母为四格表资料的4个边合计值。该公式是通过基本公式3.27推导出来的,不考虑计算上四舍五入所致的误差,则两式计算结果完全相同。由于在应用四格表资料专用公式时,不需要事先计算出每格的理论数,因此其计算过程比用基本公式要简单一些。

3. 四格表资料检验的校正条件及校正公式 分布是一种连续性分布;而四格表资料是描述分类变量的,是非连续性资料。在下列情况下,用式 (3.27)(3.30) 计算而求得的概率偏小,应进行校正。

(1) 当 ,只要有一个格子的理论数为时,需用 检验校正公式;

(2) 当 ,或有任一个格子的理论数为时,应改用四格表资料的确切概率法(请参考其他书籍)

校正的基本公式:                           (3.31)

校正的专用公式:                   (3.32)

4. 例题分析 3.21(仍以表3-9资料为例)

(1)  建立检验假设:

H0:  两药转阴率相等,即;

H1:  两药转阴率不等,即 ;

(2)  计算统计量值:

根据式(3.27)计算所有格子的理论数,每格 ,且,所以不需用校正公式。

首先用基本公式计算:

 

= 18.738

或,用四格表专用公式计算:

 

由此可见两式计算结果相同,可任选一个公式计算。

(3)  确定P值和作出推断结论:

四格表资料 ,经查 界值表 ,。 因为 =18.738>6.63,所以P<0.01。在 的水准上,拒绝H0,接受H1,认为两种药物驱钩虫的疗效差别具有高度统计学意义。

3.22 有人在某年对某地区60-70岁以及70岁以上组老年人进行多发性脑梗塞性痴呆 (MID) 的流行病学调查,所得两个年龄组的患病率的资料如下,问两年龄组的患病率是否不同?

3-11  某年某地60岁以上老人MID的患病情况

年龄组()

患病人数

正常人数

调查人数

患病率(%)

60-

5(9.57)

1017 (1012.43)

1022

 0.49

70

8(3.43)

359 (363.57)

 367

 2.18

 

合 计

13

1376

1389

 0.94

(1) 建立检验假设:

H0:  两组患病率相等,即;

H1:  两组患病率不等,即 ;

(2) 计算统计量值:

本例c格的理论数最小,等于3.43<5。所以要用校正公式。

首先用基本公式计算:

 

    

= 8.324

或,用四格表专用公式计算:

 

= 8.324

(3) 确定P值和作出推断结论:

四格表资料 ,查 界值表, 。因为 =8.324>6.63,所以P<0.01。在 的水准上,拒绝H0,接受H1,认为两组老年人的MDI患病率的差异具有高度统计学意义,患病率不同。

----------(精鼎数据分析:http://www.datajd.com-----------

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有