独立性检验
(2011-08-12 16:19:26)
标签:
检验上海安脉教育 |
分类: 检验指标 |
表10-2
课外活动内容
|
|
体育 |
文娱 |
阅读 |
|
性 别 |
男 |
21 |
11 |
23 |
55 |
女 |
6 |
7 |
29 |
42 |
|
|
|
27 |
18 |
52 |
N=97 |
独立性检验一般多采用表格的形式记录观察结果。像上面的表格那样,这种表格又称为列联表,故独立性检验又有列联表分析的别名。每一个因素可以分为两个或两个以上的类别,因分类的数目不同,列联表有多种形式。两个因素各有两项分类,称为2×2表或四格表,一个因素有两项分类另一个因素有k项分类则称之为2×k表。一个因素有R类另一个因素分C类,这种表称之为R×C表。另外,因素也可以多于两个以上,这种表称为多维列联表,这种多维列联表的分析比较复杂,故本节从略,本节所讨论的独立性检验只是二维列联表的分析方法。请一定不要误解,好像独立性检验只是两因素列联表的分析,而实际上应包括多维列联表的分析。
一、独立性检验的一般问题
(一)统计假设
独立性检验的虚无假设是二因素(或多因素)之间是独立的或无关联,对立假设则是二因素(或多因素)之间有关联或者说差异显著。一般多用文字叙述而很少用统计符号表示。
(二)理论次数的计算
独立性检验的理论次数是直接由列联表所提供的数据推算出来的。二因素或称两样本其各行或各列数目的和,即每一项分类的数目与总数(N)的比值,提供了样本的比率。如下表(10—2资料);
课外活动内容(变量1)
性 |
|
体育 |
文娱 |
阅读 |
fx |
男 |
21 |
11 |
23 |
55 |
|
女 |
6 |
7 |
29 |
42 |
|
fr |
27 |
18 |
52 |
97 |
总数N=97
“体育”的和数为27,其与总数之比为27/97
“文娱”的和数为18,其与总数之比为18/97
“阅读”的和数为52,其与总数之比为52/97
这是样本的比率,若问男生在3种课外活动内容上的理论次数,则将各种课外活动内容的比率乘以男生的人数,因此:
男生的体育活动理论人数为55×27 / 97=15.3
男生的文娱活动理论人数为55×18 / 27=10.2
男生的阅读活动理论人数为55×52 / 97=29.5
同样,女生在3项课外活动中的理论次数分别为42×27 / 97=11.7, 42×18 / 27=7.8,42×52 / 97=22.5。如果用fx表示每一行的和,fy表示每一列的和,则理论次数fe的通式可表示为:
在使用式10—18计算理论次数时,可能出现小数,这是被允许的,因为χ2分布已被作为连续型的分布看待了。理论次数的计算,用概率来解释,则可理解为:在独立事件时,男生喜爱体育活动的概率,应是男生的概率乘以喜爱体育活动的概率( ),因为总数为N(即重复次数),故其理论次数为 。
(三)自由度的确定
两因素列联表自由度与二因素各自的分类项数有关。设R为每一行的分类项数,C为每一列的分类数目,则自由度为
df = (R-1)
(C-1)
上例R=3
(四)统计方法的选择
一般应用独立性检验的场合,独立样本居多,用χ2检验的基本公式计算:
二、四格表(2X2)独立性检验
四格表是最简单的列联表,这种形式在心理、教育及社会调中应用最多,因有两个因素,各因素又只有两项分类,故曰四格茅四格表的独立性检验很多情况下与二比率差异显著性检验的统计功用相同。就是说,在有些场合,例如其中一个因素属于被试方的两项分类时,这时,将调查结果,可以整理成两个比率,也可以整理成四格表形式,这种情况下,两种不同的统计方法都可达到相的统计分析的目的。
四格表独立样本,即从总体中随机取样,然后按两个因素对体进行分类,将调查或实验结果分别填入四个格内,便得到独立样本四格表,当各格的理论次数fe≥5时其统计量χ2的计算,可用计算x’的基本公式:
表10-3
|
|
因素A |
|
|
|
|
分类1 |
分类2 |
|
因素B |
分类1 |
A |
B |
A+B |
分类2 |
C |
D |
C+D |
|
|
|
A+C |
B+D |
N=A+B+C+D |
[例门
表10-4
|
|
学业水平因素 |
|
|
|
|
中等以上 |
中等以下 |
|
性别 |
男 |
23(A) |
17(B) |
40(A+B) |
女 |
28(C) |
22(D) |
50(C+D) |
|
|
|
51(A+C) |
39(B+D) |
90 |
解:此题用基本公式计算,需要先计算各格的理论次数:fe1 = 40×51/90=22.67,因为自由度为1,只要按公式计算出一个理论次数之后,其余各格的理论次数可用相应的边缘次数减去所计算的理论次数得到:fe2=51-22.67=28.33。fe3= 40-22.67=17. 33,fe4=39-17.33=21.67。将所计算的理论次数代入基本公式:
查df=1的χ2表。知χ2<χ.752
此题用式(10—21)计算,可不用先计算理论次数,简单,方便还可减少计算误差。
根据列联表自由度计算公式df=(R-1) (C-1),四格表中R=2,C=2故自由度总为1。
此题也可用二比率差异显著性检验,这时要先求各样本的比率来:男生学业成绩中等以上的比率 ,中等以下的比率为
同样,女生学业成绩的比率分别为
查正态表,所得尾部端概率乘以2(双侧概率)与用χ2值查χ2表所得概率相同(χ2为双侧概率)。如果将Z值平方,Z2=0.14272=0.02036与上面所计算的χ2值也相同。
本题还可求中等成绩以上(或以下)男生与女生的比率,进行差异显著性检验,回答在学业成绩上是否存在男女生的比率不同。求比率差异显著性检验,需要进行两次比较,而用、χ2检验只计算一次就可以了。四格表χ2检验要比比率差异显著性检验在方法慧计算方面都简单。
所谓相关样本,指同一组被试在前后两次实验或调查中的两个项目相同,这时前后两次结果则相互影响,而不独立。这样的四格表称为相关的四格表。
相关样本四格表χ2检验与相关样本比率差异显著性检验功能相同。
根据相关样本比率差异显著性检验10—15式
,df=1时
故相关样本四格表χ2检验公式为
式中A、D为四格表中两次实验或调查中分类项目不同的那两个格的衬计次数。
[例2]
|
|
测验1 |
|
|
|
|
错 |
对 |
|
测验2 |
对 |
5(A) |
55(B) |
60 |
错 |
25(C) |
15(D) |
40 |
|
|
|
30 |
70 |
100 |
解;此题的统计假设为:两个测验无关联,或测验1对错有测验2上没有显著差异。是相关样本的资料:用式10—22计算:
查df=1的χ2表得χ.052=3.84
当四格表任一格的理论次数小于5时,就要应用Yetes连续性校正公式(10—17)计算χ2量,这一点与配合度检验相同。四格表的校正计算用下式比用10—17基本校正公式方便。
四格表连续校正公式,是根据10—17这一基本的校正公式,将实计次数代入推导而来(推导过程从略,读者可自己试之)。
1.四格表χ2检验,应用校正公式时只须四格中有一格的理论次数小于5。当理论次数大于5时,按道理亦应用校正公式计算,但由于样本较大,校正公式计算的结果与不用校正公式所计算的结果十分接近,一般对推论不产生影响,故可用基本公式计算。
2.用校正公式近似计算χ2,允许四格中有一格的实际次数出现零的情况,校正公式适应较广,可得到与精确概率方法非常近似的结果(见下面)。
三、R×C表独立性检验
R×C 表独立性检验,是应用较多的χ2检验。除上述四格表有些特殊情况外,一般情况的R×C 表χ2检验,同本节开始所述。计算χ2的公式一为基本公式:
,
较方便的公式为式10—20:
例如表10-2资料用基本公式计算:
用10-20计算:
两种计算方法的结果接近。式10—20计算的结果8.3217较少计算误差。据此χ2值查df=(3—1)(2—1)=2的χ2表,得χ.012>χ2>χ.0252。故可认为性别与课外活动内容有关联,或男女性别不同的学生在选择课外活动内容上存在显著差异。作此推论犯错误的概率为0.01<P<0.025。