卡方分析
卡方分析是用来研究两个分类变量间是否独立即是否存在某种关联性的最常用的方法。简单地说,卡方分析的方法是这样的:假设两个变量是相互独立,互不关联的。这在统计上称为原假设;对于调查中得到的两个变量的数据,用一个表格的形式来表示它们的分布(频数和百分数),这里的频数叫观测频数,这种表格叫列联表;如果原假设成立,在这个前提下,可以计算出上面列联表中每个格子里的频数应该是多少,这叫期望频数;比较观测频数与期望频数的差,如果两者的差越大,表明实际情况与原假设相去甚远;差越小,表明实际情况与原假设越相近。这种差值用一个卡方统计量来表示;对卡方值进行检验,如果卡方检验的结果不显著,则不能拒绝原假设,即两变量是相互独立、互不关联的,如果卡方检验的结果显著,则拒绝原假设,即两变量间存在某种关联,至于是如何关联的,这要看列联表中数据的分布形态。
检验方法
假设有两个分类变量X和Y,它们的值域分别为{x1,
x2}和{y1,
y2},其样本频数列联表为:
|
|
y1
|
y2
|
总计
|
|
x1
|
a
|
b
|
a+b
|
|
x2
|
c
|
d
|
c+d
|
|
总计
|
a+c
|
b+d
|
a+b+c+d
|
若要推断的论述为H1:"X与Y有关系",可以利用独立性检验来考察两个变量是否有关系,并且能较精确地给出这种判断的可靠程度。具体的做法是,由表中的数据算出随机变量K^2的值(即K的平方)
K^2 = n (ad - bc) ^ 2 /
[(a+b)(c+d)(a+c)(b+d)] 其中n=a+b+c+d为样本容量
K^2的值越大,说明"X与Y有关系"成立的可能性越大。
当表中数据a,b,c,d都不小于5时,可以查阅下表来确定结论"X与Y有关系"的可信程度:
|
P(K^2≥k)
|
0.50
|
0.40
|
0.25
|
0.15
|
0.10
|
|
k
|
0.455
|
0.708
|
1.323
|
2.072
|
2.706
|
|
P(K^2≥k)
|
0.05
|
0.025
|
0.010
|
0.005
|
0.001
|
|
k
|
3.841
|
5.024
|
6.635
|
7.879
|
10.828
|
例如,当"X与Y有关系"的K^2变量的值为6.109,根据表格,因为5.024≤6.109<6.635,所以"X与Y有关系"成立的概率为1-0.025=0.975,即97.5%。
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合,偏差越小,卡方值就越小,越趋于符合,若量值完全相等时,卡方值就为0,表明理论值完全符合。
注意
卡方检验受样本量的影响很大,同样两个变量,不同的样本量,可能得出不同的结论。解决这个问题的办法是对卡方值进行修正,最常用的是列联系数。对较大样本,当卡方检验的的结果显著,并且列联系数也显著时(列联系数至少超过0.16),才可拒绝原假设;当卡方检验的结果显著,列联系数不显著时,不能轻易下结论。
另外,对变量取值的不同分类会引起卡方值的改变,有可能得到不同的结论。所以在分类时不能随意,要有理论或统计上的依据。特别是对定距或定序变量,要先将变量的取值分组归类,才能使用卡方分析,而且由于分组的方法不同,也会得出不同的结论;同时,对于定距或定序变量用卡方分析,没有充分利用它们的数量信息。这都是在使用卡方分析时要注意的问题。
评价
k^2是英国数学家,生物统计学家,数理统计学的创立者,自由思想者卡尔·皮尔逊(Karl
Pearson,1857年3月27日~1936年4月27日)历尽艰辛构造的,卡方检验被誉为自1900年以来在科学技术所有分支中20个尖端发明之一,美国生物学家雷蒙德·珀尔说:"历史的进展清楚地显示出有极少数的人,没有靠地位或者环境,而仅仅靠他们自己的聪明才智,对人类的思维模式产生了巨大的影响……卡尔·皮尔逊就是这少数杰出人物中的一个。"并被誉为现代统计科学的创立者。
加载中,请稍候......