相关分析(2)

标签:
相关分析统计指标上海安脉教育 |
分类: 统计指标 |
地理要素之间的相关分析的任务,是揭示地理要素之间相互关系的密切程度。而地理要素之间相互关系的密切程度的测定,主要是通过对相关系数的计算与检验来完成的。一、两要素间相关程度的测定
(一)相关系数的计算与检验
1.相关系数的计算
对于两个要素x与y,如果它们的样本值分别为xi和yi(i=1,2,…,n),则它们之间的相关系数被定义为:
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/1.gif
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/2.gif
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/3.gif
关程度的统计指标,其值在[-1,1]区间之内。rxy>0,表示正相关,即两要素同向发展;rxy<0,表示负相关,即两要素异向发展。rxy的绝对值越接近于1,表示两要素的关系越密切;越接近于0,表示两要素的关系越不密切。
如果记:
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/4.gif
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/5.gif
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/6.gif
则公式(1)式可以进一步简化为
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/7.gif
例如,某地区1981—1990年期间的粮食总产量(x)和农业总产值(y)数据如表2-1所示。试计算该地区粮食总产量与农业总产值之间的相关系数
表2-1某地区粮食总产量与农业产值数据
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/8.gif
据表2—1 计算可得:
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/9.gif
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/10.gif
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/11.gif
故:
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/12.gif
即该地区粮食总产量与农业总产量之间的相关系数为0.9214。
如果问题涉及到x1,x2,…,xn等n个要素,则对于其中任何两个要素xi和xj,我们都可以按照公式(1)或(2)式计算它们之间的相关系数rij,这样就可得到多要素的相关系数矩阵:
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/13.gif
显然,由公式(1)或(2)式容易知道:
(1)rii=1(i=1,2,…,n),即每一个要素xi与它自己本身的相关程度最大;
(2)rij=rji(i,j=1,2,…,n),即第i个要素(xi)对第j个要素(xj)的相关程度,与第j个要素(xj)对第i个要素(xi)的相关程度相等。
2.相关系数的检验
当要素之间的相关系数求出之后,还需要对所求得的相关系数进行检验。这是因为,这
表2-2 检验相关系数ρ=0的临界值(ra)表
p{|r|>ra}=α
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/14.gif
里的相关系数是根据要素之间的样本值计算出来的,它随着样本数的多少或取样方式的不同而不同,因此它只是要素之间的样本相关系数,只有通过检验,才能知道它的可信度。
一般情况下,相关系数的检验,是在给定的置信水平下,通过查相关系数检验的临界值表来完成的。表2-2给出了相关系数真值ρ=0(即两要素不相关)时样本相关系数的临界值ra。
在表2-2中,左边的f值称为自由度,其数值为f=n-2,这里n为样本数;上方的a代表不同的置信水平;表内的数值代表不同的置信水平下相关系数ρ=0的临界值,即ra;公式p={|r|>ra}=a的意思是当所计算的相关系数r的绝对值大于在a水平下的临界值ra时,两要素不相关(即ρ=0)的可能性只有a。在前例中,f=10-2=8,在不同的置信水平下的临界值ra可以从表中查得:r0.1=0.5494,r0.05=0.6319,r0.02=0.7155,r0.01=0.7646,r0.001=0.8721。由于rxy=0.9214>r0.001=0.8721,这说明该地区粮食总产量(x)与农业总产值(y)不相关的概率只有a=0.001,即0.1%,换句话说,该地区粮食总产量(x)与农业总产值(y)同向相关的概率达0.999,即99.9%。
一般而言,当|r|<r0.1时,则认为两要素不相关,这时的样本相关系数就不能反映两要素之间的关系。
(二)等级相关系数的计算与检验
1.等级相关系数的计算
等级相关系数,又称顺序相关系数,与前述相关系数一样,它也是描述两要素之间相关程度的一种统计指标,不过在计算方法上,与前述相关系数的计算有所不同。等级相关系数是将两要素的样本值按数值的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。实际上,它是位次分析方法的数量化。
设两个要素x和y有n对样本值,令R1代表要素x的序号(或位次),
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/15.gif
组样本位次差的平方,那么要素x与y之间的等级相关系数(r′xy)被定义为 http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/16.gif
例如,我国1985年各省(市,区)的总人口(x)和社会总产值(y)及其位次列于表2-3。试计算总人口(x)与社会总产值(y)之间的等级相关系数。
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/17.gif
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/18.gif
即:总人口(x)与社会总产值(y)的等级相关系数为0.726
2.等级相关系数的检验
与相关系数一样,等级相关系数是否显著,也需要检验。表2-4给出了等级相关系数检验的临界值。
表2-4的内容与表2-2的内容相似,n代表样本个数,a代表不同的置信水平,也称显著水
表2-3
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/19.gif
表2-4 等级相关系数检验的临界值
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/20.gif
平,表中的数值为临界值ra。在上例中,n=29,表中没有给出相应的样本数下的临界值ra,但我们发现,在同一显著水平下,随着样本数的增大,临界值ra减少。在n=28时,查表可知:r0.05=0.317,r0.01=0.448,由于r′xy=0.726>r0.01=0.448,故r′xy在a=0.01的置信水平上是显著的。
二、多要素间相关程度的测定
(一)偏相关系数的计算与检验
地理系统是一种多要素的复杂巨系统,其中一个要素的变化必然影响到其它各要素的变化。在多要素所构成的地理系统中,当我们研究某一个要素对另一个要素的影响或相关程度时,把其它要素的影响视为常数(保持不变),即暂不考虑其它要素的影响,而单独研究那两个要素之间的相互关系的密切程度时,则称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。
1.偏相关系数的计算
偏相关系数,可利用单相关系数来计算。假设有三个要素x1,x2,x3,其两两间单相关系数矩阵为
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/21.gif
因为相关系数矩阵是对称的,故在实际计算时,只要计算出r12,r13和r23即可。在偏相关分析中,常称这些单相关系数为零级相关系数。对于上述三个要素x1,x2,x3,它们之间的偏相关系数共有三个,即r12·3,r13·2,r23·1(下标点后面的数字,代表在计算偏相关系数时,保持不变量,如r12·3即表示x3保持不变),其计算公式分别如下:
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/22.gif
式(5)—(7)表示三个偏相关系数,称为一级偏相关系数。
若有四个要素X1,X2,X3,X4,则有六个偏相关系数,即r12·34,r13·24,r14·23,r23·14,r24·12,r34·12,它们称为二级偏相关系数,其计算公式分别如下:
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/23.gif
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/24.gif
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/25.gif
在式(8)中,r12·34表示在x3和x4保持不变的条件,x1和x2的偏相关系数,其余式(9)—(13)依此类推。
应所考虑的要素多于四个时,则可以依次考虑,计算三级甚至更多级偏相关系数。
假若,对于某四个地理要素X1,X2,X3,X4的23个样本数据,经过计算得到了如下的单相关系数矩阵:
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/26.gif
为了说明偏相关系数的计算方法,现以(14)式中的单相关系数为例,来计算一级和二级偏相关系数。为了计算二级偏相关系数,需要先计算一级偏相关系数,由(5)式可求得
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/27.gif
同理,依次可以计算出其它各一级偏相关系数,见表2-5。
表2-5 一级偏相关系数
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/28.gif
在一级偏相关系数求出以后,便可代入公式计算二级偏相关系数,如由(8)式计算可得
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/29.gif
同理,依次可计算出其它各二级偏相关系数,见表2-6。
表2-6
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/30.gif
容易看出,偏相关系数具有下述性质:
(1)偏相关系数分布的范围在-1到1之间,譬如,固定X3,则X1与X2间的偏相关系数满足-1≤r12·3≤1。当r12·3为正值时,表示在X3固定时,X1与X2之间为正相关;当r12·3为负值时,表示在X3固定时,X1与X2之间为负相关。
(2)偏相关系数的绝对值越大,表示其偏相关程度越大。例如,|r12·3|=1,则表示当X3固定时,X1与X2之间完全相关;当|r12·3|=0时,表示当X3固定时,X1与X2之间完全无关。
(3)偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数(详见后述),即R1·23≥|r12·3|。
2.偏相关系数的显著性检验
偏相关系数的显著性检验,一般采用t-检验法。其统计量计算公式为
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/31.gif
在(15)式中,r12·34…m为偏相关系数,n为样本数,m为自变量个数。
譬如,对于前述计算得到的偏相关系数r24·13=0.821,由于n=23,m=3,故
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/32.gif
查t分布表,可得出不同显著水平上的临界值ta,若t>t。则表示偏相关显著;反之,t<ta,则偏相关不显著。在自由度为23-3-1=19时,查表得t0.001=3.883,所以t>ta,这表明在置信度水平a=0.001上,偏相关系数r24·13是显著的。
(二)复相关系数的计算与检验
严格来说,以上的分析都是揭示两个要素(变量)间的相关关系,或者是在其它要素(变量)固定的情况下来研究两要素间的相关关系的。但实际上,一个要素的变化往往受多种要素的综合作用和影响,而单相关或偏相关分析的方法都不能反映各要素的综合影响。要解决这一问题,就必须采用研究几个要素同时与某一个要素之间的相关关系的复相关分析法。几个要素与某一个要素之间的复相关程度,可用复相关系数来测定。
1.复相关系数的计算
复相关系数,可以利用单相关系数和偏相关系数求得。
设Y为因变量,X1,X2,…,Xk为自变量,则将Y与X1,X2,…,Xk之间的复相关系数记为Ry·12…k。其计算公式如下
当有两个自变量时,
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/33.gif
当有三个自变量时,
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/34.gif
一般地,当有k个自变量时,
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/35.gif
以(14)式所描述的四个地理要素之间的相互关系为例,若以X4为因变量,X1,X2,X3为自变量,则可以按下式计算X4与X1,X2,X3之间的复相关系数
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/36.gif
关于复相关系数的性质,可以概括为如下几点:
(1)复相关系数介于0到1之间,即
0≤Ry·12…k≤1
(1)复相关系数越大,则表明要素(变量)之间的相关程度越密切。复相关系数为1,表示完全相关;复相关系数为0,表示完全无关。
(3)复相关系数必大于或至少等于单相关系数的绝对值。
2.复相关系数的显著性检验
对复相关系数的显著性检验,一般采用F-检验法。其统计量计算公式为
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/37.gif
在(19)式中,n为样本数,k为自变量个数。对于前述计算得出的复相关系数R4·123=0.974,由于n=23,k=3,故
http://rcs.wuchang-edu.com/Resource/Book/Edu/JXCKS/TS090038/image/38.gif
查F-检验的临界值表(见本书附录Ⅱ),可以得出不同显著水平上的临界值Fa,若F>F0.01,则表示复相关在置信度水平a=0.01上显著,称为极显著;若F0.05<F≤F0.01,则表示复相关在置信度水平a=0.05上显著;若F0.10≤F≤F0.05,则表示复相关在置信度水平a=0.10上显著;若F>F0.10,则表示复相关不显著,即因变量Y与K个自变量之间的关系不密切。在上例中,F=120.190 7>F0.01=5.0103,故复相关达到了极显著水平。