加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

独立性检验

(2011-08-12 16:19:26)
标签:

检验

上海安脉

教育

分类: 检验指标
    独立性检验也是χ2检验的一个应用,它主要用于两个或两爷以上因素多项分类的计数资料分析。如果要研究的两个因素(又称自变量)或两个以上因素之间是否具有独立性或有无关联或有碧“交互作用”的存在,就要应用χ2独立性检验。如果两个自变量(暂以两个自变量为例)是独立的,即无关联,就意味苷对其中一个自变量(因素)来说,另一个自变量的多项分类次数上的变化是在取样误差的范围之内。假如两个因素是非独立,则称这二变量之间有关联或有交互作用存在。当然对于其中一个自变量而言,另一个自变量多项分类次数上的变化,超过了取样误差的范围。从另一方面来讲,假如研究者的兴趣是一自变量不同分类是否在另一变量的多项分类上有差异或者是有一致性,也可用独立性检验来解释:如果二变量独立,则在分类上差异不显著,如果二变量有关联,那么·在分类上的差异就显著。这是一个问题的两个方面。

    下面举例说明:某校对学生的课外活动内容进行调查,结果整理成下表:(10—2)

表10-2  列联表

课外活动内容

 

 

体育

文娱

阅读

 

21

11

23

55

6

7

29

42

 

 

27

18

52

N=97

    这里的两个因素一个是性别,另一个是课外活动内容,而各自变量(因素)又分成两类(男、女)和三类(体育、文娱、阅读)。如果调查想了解性别与活动内容是否有关联,即二者是否独立,以及男女学生在课外活动内容上是否存在显著差异,这都是独立性检验要回答的问题,上述两个问题只是提问的方式不同,而实质上是相同的。

独立性检验一般多采用表格的形式记录观察结果。像上面的表格那样,这种表格又称为列联表,故独立性检验又有列联表分析的别名。每一个因素可以分为两个或两个以上的类别,因分类的数目不同,列联表有多种形式。两个因素各有两项分类,称为2×2表或四格表,一个因素有两项分类另一个因素有k项分类则称之为2×k表。一个因素有R类另一个因素分C类,这种表称之为R×C表。另外,因素也可以多于两个以上,这种表称为多维列联表,这种多维列联表的分析比较复杂,故本节从略,本节所讨论的独立性检验只是二维列联表的分析方法。请一定不要误解,好像独立性检验只是两因素列联表的分析,而实际上应包括多维列联表的分析。

一、独立性检验的一般问题

(一)统计假设

独立性检验的虚无假设是二因素(或多因素)之间是独立的或无关联,对立假设则是二因素(或多因素)之间有关联或者说差异显著。一般多用文字叙述而很少用统计符号表示。

(二)理论次数的计算

独立性检验的理论次数是直接由列联表所提供的数据推算出来的。二因素或称两样本其各行或各列数目的和,即每一项分类的数目与总数(N)的比值,提供了样本的比率。如下表(10—2资料);

课外活动内容(变量1)






2

 

体育

文娱

阅读

fx

21
(15.3)

11
(10.2)

23
(29.5)

55

6
(11.7)

7
(7.8)

29
(22.5)

42

fr

27

18

52

97

总数N=97

“体育”的和数为27,其与总数之比为27/97

“文娱”的和数为18,其与总数之比为18/97

“阅读”的和数为52,其与总数之比为52/97

这是样本的比率,若问男生在3种课外活动内容上的理论次数,则将各种课外活动内容的比率乘以男生的人数,因此:

男生的体育活动理论人数为55×27 / 97=15.3

男生的文娱活动理论人数为55×18 / 27=10.2

男生的阅读活动理论人数为55×52 / 97=29.5

同样,女生在3项课外活动中的理论次数分别为42×27 / 97=11.7, 42×18 / 27=7.8,42×52 / 97=22.5。如果用fx表示每一行的和,fy表示每一列的和,则理论次数fe的通式可表示为:

                (10—18)

在使用式10—18计算理论次数时,可能出现小数,这是被允许的,因为χ2分布已被作为连续型的分布看待了。理论次数的计算,用概率来解释,则可理解为:在独立事件时,男生喜爱体育活动的概率,应是男生的概率乘以喜爱体育活动的概率( ),因为总数为N(即重复次数),故其理论次数为 。

(三)自由度的确定

两因素列联表自由度与二因素各自的分类项数有关。设R为每一行的分类项数,C为每一列的分类数目,则自由度为

df = (R-1) (C-1)    (10—19)

上例R=3  C=2  df = (3-1) × (2-1)=2  自由度的意思是:在计算理论次数时,在3×2=6的格子内,只有两个格子内的数目可以自由变动,也就是说在六个格子中,只要有两个格子的数字确定,在边缘次数(即fx  fr)不变的情况下,其他各格的数字就随之而定了。例如知道男生喜爱体育活动的理论次数15.3人,喜爱文娱活动的理论次数为10.2这两个数,其他的各:格的理论次数便可推算出来。若不是理论次数,而是两个实际次数也同样如此。这就指出一个问题,在R×C表的理论次数计算时,只须用公式9—18计算(R-1)( C-1)个理论次数,其余的理论次数便可直接用边缘次数减去所计算出来的(R-1) (C-1) 个理论次数得到。

(四)统计方法的选择

    独立性检验的统计方法,视样本的具体情况而不同。样本是独立的还是相关的,是大样本还是小样本?各因素的分类项目多少不同也有不同的方法,这些具体方法在下面将逐一介绍。在应用独立性检验时,一定要考虑到上述情况而选择恰当的统计公式。

一般应用独立性检验的场合,独立样本居多,用χ2检验的基本公式计算:

    应用基本公式计算,要先计算理论次数,比较麻烦,为了省去计算理论次数,可用下式直接计算χ2值,其公式为:

                                   (10—20)

    式中f0i为每一格的实计数。Fxi是与f0i对应的那一行的总数,称为边缘次数。f0i是与f0i对应的那一列的总数,也称为边缘次数,N为总的观察数目。

    对于小样本及2×2表,都有简便的公式,,可不用10—20或基本公式计算(具体方法在下面介绍)。

    (五)结果及解释

    1.查自由度为(R-1) (C-1)的χ2表后,确知计算的χ2量于 或 时,接受原假设,即认为两个因素无关联,或说两个素是相互独立的。或说一因素的几项分类在另一因素的几项分上实际观察次数与理论次数差异不显著,或笼统地说差异不显目例如表10—2的资料,若χ2值小于 ,就可解释为:性别与外活动内容无关,或性别与课外活动内容相互独立,或说男女在择体育、文娱、阅读3种课外活动内容上没有显著差异(即卖计与理论次数之间无显著差异),或者可以说在3种课外活动内容不存在性别差异。

    2.当计算的χ2值大于 或 时,拒绝原假设,即认为两因素之间有关联,或两个因素不独立,或是一因素的几项分类与一个因素几项分类的实计数与理论次数之间差异显著。上例若χ2大于 或 ,则可推论说性别因素与课外活动内容这一因素关联,或者说男女生在选择3种课外活动内容上有显著差异,或说选择3种课外活动内容在男女不同性别上存在显著差异。

二、四格表(2X2)独立性检验

四格表是最简单的列联表,这种形式在心理、教育及社会调中应用最多,因有两个因素,各因素又只有两项分类,故曰四格茅四格表的独立性检验很多情况下与二比率差异显著性检验的统计功用相同。就是说,在有些场合,例如其中一个因素属于被试方的两项分类时,这时,将调查结果,可以整理成两个比率,也可以整理成四格表形式,这种情况下,两种不同的统计方法都可达到相的统计分析的目的。

    下面根据样本的不同情况,分别叙述各种方法。

    (一)独立样本四格表χ2检验

    独立样本四格表χ2检验,相当于独立样本比率差异的显著性检验。

四格表独立样本,即从总体中随机取样,然后按两个因素对体进行分类,将调查或实验结果分别填入四个格内,便得到独立样本四格表,当各格的理论次数fe≥5时其统计量χ2的计算,可用计算x’的基本公式:

          查df=1的χ2

    或可用下面的简捷公式计算:

          df=1    (10—21)

    式中A、B、C、D分别为四格表内各格的实计数,(A+B)、(C+ D)、(A+C)、(D+B)为各边缘次数。具体见下表。

表10-3     2×2表内符号

 

 

因素A

 

 

 

分类1

分类2

 

因素B

分类1

A

B

A+B

分类2

C

D

C+D

 

 

A+C

B+D

N=A+B+C+D

[例门  今随机抽取90人,按男女不同性别分类,将学生成绩分为中等以上及中等以下两类。结果如下表(10—4),问男女生在学业水平上是否有关联?或男女生在学业中等以上的比率差异是否显著?

表10-4

 

 

学业水平因素

 

 

 

中等以上

中等以下

 

性别
因素

23(A)

17(B)

40(A+B)

28(C)

22(D)

50(C+D)

 

 

51(A+C)

39(B+D)

90

解:此题用基本公式计算,需要先计算各格的理论次数:fe1 = 40×51/90=22.67,因为自由度为1,只要按公式计算出一个理论次数之后,其余各格的理论次数可用相应的边缘次数减去所计算的理论次数得到:fe2=51-22.67=28.33。fe3= 40-22.67=17. 33,fe4=39-17.33=21.67。将所计算的理论次数代入基本公式:

查df=1的χ2表。知χ2.752  故性别与学业成绩无关联,或说男女生性别不同在学业成绩上没有显著差异。

此题用式(10—21)计算,可不用先计算理论次数,简单,方便还可减少计算误差。

根据列联表自由度计算公式df=(R-1) (C-1),四格表中R=2,C=2故自由度总为1。

此题也可用二比率差异显著性检验,这时要先求各样本的比率来:男生学业成绩中等以上的比率 ,中等以下的比率为 同样,女生学业成绩的比率分别为   。比率差的标准误用10—10式计算,其临界比率用10—12式计算:

查正态表,所得尾部端概率乘以2(双侧概率)与用χ2值查χ2表所得概率相同(χ2为双侧概率)。如果将Z值平方,Z2=0.14272=0.02036与上面所计算的χ2值也相同。

本题还可求中等成绩以上(或以下)男生与女生的比率,进行差异显著性检验,回答在学业成绩上是否存在男女生的比率不同。求比率差异显著性检验,需要进行两次比较,而用、χ2检验只计算一次就可以了。四格表χ2检验要比比率差异显著性检验在方法慧计算方面都简单。

 (二)相关样本四格表χ2检验

所谓相关样本,指同一组被试在前后两次实验或调查中的两个项目相同,这时前后两次结果则相互影响,而不独立。这样的四格表称为相关的四格表。 

相关样本四格表χ2检验与相关样本比率差异显著性检验功能相同。

根据相关样本比率差异显著性检验10—15式

,df=1时

故相关样本四格表χ2检验公式为

            (10—22)

式中A、D为四格表中两次实验或调查中分类项目不同的那两个格的衬计次数。

[例2]     对100名学生先后测验两次,结果整理成下表10—5

 

 

测验1

 

 

 

 

测验2

5(A)

55(B)

60

25(C)

15(D)

40

 

 

30

70

100

解;此题的统计假设为:两个测验无关联,或测验1对错有测验2上没有显著差异。是相关样本的资料:用式10—22计算:

查df=1的χ2表得χ.052=3.84  χ.012=6.63,本题χ2值圹χ.0522.012,故可推论二测验不独立有关联,或说测验1的对错在测验2上有显著差异或说二测验在对错上差异显著。作此推论犯错误的概率为0.01<P<.05。

 (三)理论次数小于5时,四格表χ2的近似校正

当四格表任一格的理论次数小于5时,就要应用Yetes连续性校正公式(10—17)计算χ2量,这一点与配合度检验相同。四格表的校正计算用下式比用10—17基本校正公式方便。

   (独立的四格表) (10—23)

                   (相关的四格表) (10—24)

四格表连续校正公式,是根据10—17这一基本的校正公式,将实计次数代入推导而来(推导过程从略,读者可自己试之)。

1.四格表χ2检验,应用校正公式时只须四格中有一格的理论次数小于5。当理论次数大于5时,按道理亦应用校正公式计算,但由于样本较大,校正公式计算的结果与不用校正公式所计算的结果十分接近,一般对推论不产生影响,故可用基本公式计算。

2.用校正公式近似计算χ2,允许四格中有一格的实际次数出现零的情况,校正公式适应较广,可得到与精确概率方法非常近似的结果(见下面)。

三、R×C表独立性检验

R×C 表独立性检验,是应用较多的χ2检验。除上述四格表有些特殊情况外,一般情况的R×C 表χ2检验,同本节开始所述。计算χ2的公式一为基本公式:

,         

较方便的公式为式10—20:

例如表10-2资料用基本公式计算:

用10-20计算:

两种计算方法的结果接近。式10—20计算的结果8.3217较少计算误差。据此χ2值查df=(3—1)(2—1)=2的χ2表,得χ.0122.0252。故可认为性别与课外活动内容有关联,或男女性别不同的学生在选择课外活动内容上存在显著差异。作此推论犯错误的概率为0.01<P<0.025。

    R×C表(非四格的表)χ2检验,允许有的格内的实计数为0,最小的理论次数为0.5,其中2×C表的最小其理论次数为1,上述情形下无须用χ2连续性校正公式计算,仍可得到较为近似的结果。如果最小的理论次数小于0.5或1(2×C表),一般采用合并项目的方法。而不用连续性校正公式。

     对于连续变量——测量数据,在整理成双列次数分布表后,将各分组视为分类项目,可用R×C表χ2检验,检验二列变量的独立性。

 

 

    了解更多请浏览:上海安脉计算机科技有限公司

                  教学质量精细化管理 

                  学校综合管理平台               

                  学校信息管理系统城域版

 

0

阅读 收藏 喜欢 打印举报/Report
前一篇:配合度检验
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有