加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

两变量间相关关系的测量方法

(2014-09-19 18:14:10)

    在物理类文献中见到判断相关的方法比较单一,不如社会学那么丰富。尽管有不少相关系数以前并未遇到,但也在整理的过程中同时学习。下面是自己整理的两变量间相关关系的测量方法。难免疏漏,请各位加以修正补充。

 

一、相关关系

    事物之间的联系大致可以分为两类,一类是确定性关系,变量之间存在着一一对应的关系,即函数关系;另一类是不完全确定的关系,两个变量之间存在着相互依赖、相互影响的关系,却不是严格的一一对应关系,称为相关关系。相关关系反映的是变量之间是否存在联系亦即联系的程度。确定性关系与相关关系之间往往无法截然区分,一方面,由于测量误差等随机因素的影响,确定性关系在现实中往往通过相关关系表现出来;另一方面,当人们对客观事物的内部规律了解得更深刻时,相关关系又有可能转化为确定性关系。

 

二、变量类型

    依据测量尺度,在社会科学研究中一般将变量分为定类变量、定序变量和定距变量三大类(此外,还有“定比变量”,社会科学研究不作区分)。它们之间的关系是从定类变量开始,后一个变量比前一个变量的层次高,后一个变量除具有前一个变量的特征外,还具有自己的特点。

    定类变量:变量的取值仅仅只有类别属性之分,例如性别,没有大小、优劣之别。在社会调查研究活动中,凡是涉及到类型划分社会现象均属于定类变量。

    定序变量:变量的取值除了有类别属性之分外,还有等级或次序的区别,例如教育程度,态度量度。凡属于等级或次序上有区别的变量均为定序变量。

    定距/定比变量:变量的取值除了具有类别、次序区别之外,还有类别之间、序列之间的标准化距离的变量。变量的值之间可以比较大小,两个值的差有实际意义。在对社会现象的调查研究中,凡是可以用固定标准测量的、可以划分出距离的变量,均属于定距变量。

    其中,定距/定比变量的区别:定距变量=0,不表示“没有”,因此这一测量类型所得出的数据在数学运算上只能进行加、减运算,而不能做乘除等运算;定比变量=0,表示“没有”,即有一个有实际意义的零点(绝对零点),因此,定比变量除了可做加减运算,又能做乘除运算。(但两者在SPSS中没有太大的区别)。
 

分   

定  

举   

数学特征

定类变量

按照对象的某种特征划分类别

性别

科目

=、≠

定序变量

按照对象的某种特征,把类别按顺序、等级排列

评价等级

=、≠

>、<

定距变量

对象不仅可按特征排序,而且还可以测量序列间的距离

年龄

工资

=、≠;>、<;+、—

(定比变量还包括×、÷)

 

    对研究变量的不同特征遵循如下的分类方法:

定类变量

要求变量的特征分类具有可辨别性,且不同类别应无同一性的性质。

定序变量

要求变量的特征与属性可以排序或分等级。

定距变量

要求测量单位具有相等的意义,且没有绝对意义的“零点”。

定比变量

要求测量单位具有相等的意义,且有一个绝对意义的“零点”。

 

三、基本方法

(一)绘制散点图

(略)

(二)计算相关系数

     对不同类型的变量数据,应采用不同的相关系数来度量。

1.定类变量——定类变量

(1)φ-Phi系数

   描述2×2数据相关程度最常用的一种相关系数

   对于一个具体的2×2维列联表

          X1   X2

    Y1       b

    Y2       d

    两变量间相关关系的测量方法(2)

2C系数,也称列联系数

    列联表是观测数据按两个或更多属性(定类变量)分类时所列出的频数(或概率)表。  

    当一张表格超过2维时,Phi的值不一定是在0---1之间,为了获得0Phi1,皮尔逊建议用列联系数

    两变量间相关关系的测量方法(2)

    C的最高限取决于行数和列数,一般达不到上限1

 3Cramer's V系数

    两变量间相关关系的测量方法(2)

   V的最高上限可以达到1

 

    PRE(减少误差比例测量法,Propoctionate reduction in error)数值的意义:就是用一个现象(如变量X)来预测另一个现象(如变量Y)时能够减除百分之几的误差。

    PRE=E1E2/E1

    E1:当不知道X变量去估计Y变量时所产生的误差(全部误差)

    E2:知道X变量再去估计Y变量产生的误差

    E1E2为剩余的误差

 

   LambdaTau-y 系数都是具有PRE性质的系数

 4 Lambda(λ)系数

    这种相关测量法也叫做Cuttmans coefficient of predictability,它的基本的逻辑是计算以一个定类变量的值来预测另一个定类变量的值时,如果以众值作为预测的准则,可以减除多少误差。消减的误差再全部误差中所占的比例越大,表示两个变量之间相关的程度越大。

    分为:对称形式——用于测量两个变量间的关系是对等的,即无自变量与因变量之分。简写成λ系数。

    两变量间相关关系的测量方法(2)

         非对称形式——测量两个变量间的关系有自变量与因变量之分。简写成λyx为自变量,y为因变量)

    两变量间相关关系的测量方法(2)

     一般来说,系数在01之间取值,值越大表明相关程度越高。

    Lambda相关测量法是以众数作为预测的工具,没有考虑其他的条件。如果众数都出现在频数分布表的某一行或某一列时,Lambda系数将等于0,但并不说明XY一定完全无关。同时,这也说明Lambda系数测量X Y的相关水平是较为粗糙的一种方法。因此社会学研究中有时采用Goodman Kruskal Tau-y系数。

5 Goodman and KruskalTau-y系数

    这个系数的敏感度高于Lambda系数,但只适合于分析不对称的关系,属于不对称相关测量法,要求两个定类变量中有一个是自变量,有一个是因变量。Tau-y系数的值介于01之间,具有消减误差比例的意义,这个系数的特色是在计算时会包括所有的边缘次数和条件次数。

    两变量间相关关系的测量方法(2)

    在那么多相关系数中,在进行研究时,一般选择哪一个比较好?

    在定类——定类关系中,如果是不对称关系,最好选择用的是Tau-y,如果是对称的关系,则最好选择用的是Lambda系数,PhiCV系数没有消减误差比例的意义,而且假定两个变量之间的关系是对称的。在这三个系数中,由于V不受表的大小的影响,因此用得比较多,也比较适合于进行社会学研究。


为了避免以卡方为基础的量度系数的弱点,统计学家已经发展出各种其他方法,其中最流行的就是减少误差比例量度法(Proportional-reduction-in-error measures,简称PRE)

    PRE数值的意义:就是用一个现象(如变量X)来预测另一个现象(如变量Y)时能够减除百分之几的误差。

    PRE=(E1—E2)/E1

    E1:当不知道X变量去估计Y变量时所产生的误差(全部误差)

    E2:知道X变量再去估计Y变量产生的误差

    E1—E2为剩余的误差

    Lambda和Tau-y 系数都是具有PRE性质的系数

 (4) Lambda(λ)系数

    这种相关测量法也叫做Cuttman’s coefficient of predictability,它的基本的逻辑是计算以一个定类变量的值来预测另一个定类变量的值时,如果以众值作为预测的准则,可以减除多少误差。消减的误差再全部误差中所占的比例越大,表示两个变量之间相关的程度越大。

    分为:对称形式——用于测量两个变量间的关系是对等的,即无自变量与因变量之分。简写成λ系数。

    两变量间相关关系的测量方法(3)

         非对称形式——测量两个变量间的关系有自变量与因变量之分。简写成λy(x为自变量,y为因变量)

    两变量间相关关系的测量方法(3)

     一般来说,系数在0~1之间取值,值越大表明相关程度越高。

例:性别与吸烟态度的交互分类(人)

Y

    性别    X

合计

   男        

 

赞同

反对

   96         18

   24         62

114

86

合计

   120        80

200

    根据λ系数公式有

    两变量间相关关系的测量方法(3)

因此,我们可以说,性别与对吸烟态度之间存在中等程度的相关。

    Lambda相关测量法是以众数作为预测的工具,没有考虑其他的条件。如果众数都出现在频数分布表的某一行或某一列时,Lambda系数将等于0,但并不说明X和Y一定完全无关。同时,这也说明Lambda系数测量X 、Y的相关水平是较为粗糙的一种方法。因此社会学研究中有时采用Goodman和 Kruskal的 Tau-y系数。

(5) Goodman and Kruskal的Tau-y系数

    这个系数的敏感度高于Lambda系数,但只适合于分析不对称的关系,属于不对称相关测量法,要求两个定类变量中有一个是自变量,有一个是因变量。Tau-y系数的值介于0—1之间,具有消减误差比例的意义,这个系数的特色是在计算时会包括所有的边缘次数和条件次数。

    两变量间相关关系的测量方法(3)

当X与Y不相关时,τ=0 ;当X与Y完全相关时,τ=1 。τ值具有非对称性,它是以X为自变量,用对Y的预测来定义的,所以τ值也称作τy 。

 

    在那么多相关系数中,在进行研究时,一般选择哪一个比较好?

    在定类——定类关系中,如果是不对称关系,最好选择用的是Tau-y,如果是对称的关系,则最好选择用的是Lambda系数。


 

2.定序变量——定序变量 

1Gamma系数(G系数):分析两个变量间的对等关系,即无自变量与因变量之分。   

    两变量间相关关系的测量方法(4) 

式中,γ为系数;ns为同序对数目;nd为异序对数目。

所谓序对是指表明高低位次的两两配对,如果一对个案在变量xy的分类表现位次一致,则为同序对;如果位次相反,则为异序对。(同序对数量等于表内每个频数乘以其右下方全部频数之和,然后加总,而异序对数量则等于表内每个频数乘以其左下方全部频数之和,然后加总。)

-1≤γ≤1,γ>0且越接近1,表明XY两变量正相关的程度越高;γ<0且越接近-1,表明XY两变量负相关的程度越高。

例:文化程度与收入的交互分类表

 

收入水平

       文  化   程  

合计

大专以上   中学    小学以下

 

   12             10          3

                30         5

                16        12

25

43

32

合计

   24             56        20

100

ns=12×(30+5+16+12)+10×(5+12)+8×(16+12)+30×12=1510

nd=3×(30+8+16+4)+10×(8+4)+5×(4+16)+30×4=514

    两变量间相关关系的测量方法(4) 

说明用文化程度去预测收入水平,可以消减49%的误差。

Gamma相关测量法是一对称形式的测量,即如果X、Y都是定序层次的变量则用X预测Y,与用Y预测X相比,其相关程度一样。

(2) Somer’s D系数(d):适用于描述两定序变量X、Y为非对称关系。

    两变量间相关关系的测量方法(4)

    两变量间相关关系的测量方法(4)

ny表示仅在Y变量上的同分对数目;nx表示仅在X变量上的同分对数目。

dxy数表示大小是以X变量预测Y变量时所能减少的误差;dyx系数表示大小是以Y变量预测X变量时所能减少的误差。dxy系数具有减少误差比例的意义。

例:子女的文化程度高低是否受父辈文化程度影响。

子辈文化程度

父辈文化程度

 

大学  中学  小学

大学

中学

小学

41       3

20    14    4

       9

 48

 38

14

 

63    21    16

 100

这是一个非对称的两定序变量的相关问题研究。

ns=41×(14+4+3+9)+4×(4+9)+20×(3+9)+14×9=1648

nd=3×(20+14+3+2)+4×(20+2)+4×(2+3)+14×2=253

ny=41×(4+3)+4×3+20×(14+4)+14×4+2×(3+9)+3×9=796

所以,

    两变量间相关关系的测量方法(4)

这说明子辈的文化程度与父辈的文化程度呈正相关关系,同时以父辈的文化程度预测子辈的文化程度可以减少51.72%的误差。

(3) 斯皮尔曼(Spearman)等级相关系数(R)(又称秩相关或名次相关):考虑单个个案在两个变量上的等级差异,测量两变量间对等相关关系。适用两组配对顺序数据。

设有配对样本观测值两变量间相关关系的测量方法(4)两变量间相关关系的测量方法(4)

式中,di=Rxi-Ryi,Rxi表示xi的名次,Ryi表示yi的名次(从大到小排名次,或从小到大排名次,都可以)。两个相同的名次,要加起来除以2。

(4)Kendall tau等级相关系数(τ)

要求数据至少具有定序测量级,与Gamma系数不同的是,Gamma系数没有考虑同分对,而Kendall等级相关技术考虑了同分对影响的等级关系。

    两变量间相关关系的测量方法(4)

τa=1说明两样本秩完全正相关,τa=-1说明两样本秩完全负相关,一般|τ|>0.8可认为相关程度较高。

当配对数据出现同分对时,对τa的计算公式作如下校正,校正后的相关系数记作τb

    两变量间相关关系的测量方法(4)

其中:Tx表示变量X方向的全部同分对数;

      Ty表示变量Y方向的全部同分对数。

当同分对很多时,可先做成等级的列联表,此时Kendall等级相关系数为:

    两变量间相关关系的测量方法(4)

其中m是等级列联表中行数和列数中的较小者,即m=min(I,J)。

    Kendall tau在本质上与Spearman R 一样。从统计效力上来说,两者是不相上下的。不过因为所构成的逻辑及计算的方程不同,因此Spearman R 与 Kendall tau 数值大小是不一致的,Siegel and Castellan (1988)将两种方法的关系用不等式表达如下:

-1≤3×Kendall tau – 2×Spearman R≤1

    更为重要的是,Kendall tau 与 Spearman R 内涵有着不同的解释:Spearman R 可认为是排序变量的普通Pearson 时间效应相关系数,而 Kendall tau 是概率。具体地说是两变量实际数据处于相同顺序的概率与处于不同顺序的概率差别。

    当数据中包含许多一致性的观察对象时,Gamma 统计量优于Spearman R 或 Kendall tau。从本质上来讲,Gamma 与Spearman R 或 Kendall tau是相同的;从解释与计算的角度上讲,Gamma与Kendall tau 更为相似,简言之 Gamma 也是一种概率,具体地说,通过计算两变量排序一致的概率减去排序不一致的概率再除以1减去一致性概率而得到的,因此Gamma 与Kendall tau基本上一致,只是Gamma 明确地考虑了数据一致性问题。


0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有