三、基本方法
(一)绘制散点图
(略)
(二)计算相关系数
对不同类型的变量数据,应采用不同的相关系数来度量。
1.定类变量——定类变量
(1)φ-Phi系数
描述2×2数据相关程度最常用的一种相关系数
对于一个具体的2×2维列联表
X1 X2
Y1
a
b
Y2
c
d

(2)C系数,也称列联系数
列联表是观测数据按两个或更多属性(定类变量)分类时所列出的频数(或概率)表。
当一张表格超过2维时,Phi的值不一定是在0---1之间,为了获得0≤Phi≤1,皮尔逊建议用列联系数

C的最高限取决于行数和列数,一般达不到上限1。
(3)Cramer's V系数

V的最高上限可以达到1。
PRE(减少误差比例测量法,Propoctionate reduction in
error)数值的意义:就是用一个现象(如变量X)来预测另一个现象(如变量Y)时能够减除百分之几的误差。
PRE=(E1—E2)/E1
E1:当不知道X变量去估计Y变量时所产生的误差(全部误差)
E2:知道X变量再去估计Y变量产生的误差
E1—E2为剩余的误差
Lambda和Tau-y
系数都是具有PRE性质的系数
(4)
Lambda(λ)系数
这种相关测量法也叫做Cuttman’s coefficient of predictability,它的基本的逻辑是计算以一个定类变量的值来预测另一个定类变量的值时,如果以众值作为预测的准则,可以减除多少误差。消减的误差再全部误差中所占的比例越大,表示两个变量之间相关的程度越大。
分为:对称形式——用于测量两个变量间的关系是对等的,即无自变量与因变量之分。简写成λ系数。

非对称形式——测量两个变量间的关系有自变量与因变量之分。简写成λy(x为自变量,y为因变量)

一般来说,系数在0~1之间取值,值越大表明相关程度越高。
Lambda相关测量法是以众数作为预测的工具,没有考虑其他的条件。如果众数都出现在频数分布表的某一行或某一列时,Lambda系数将等于0,但并不说明X和Y一定完全无关。同时,这也说明Lambda系数测量X
、Y的相关水平是较为粗糙的一种方法。因此社会学研究中有时采用Goodman和
Kruskal的
Tau-y系数。
(5)
Goodman and
Kruskal的Tau-y系数
这个系数的敏感度高于Lambda系数,但只适合于分析不对称的关系,属于不对称相关测量法,要求两个定类变量中有一个是自变量,有一个是因变量。Tau-y系数的值介于0—1之间,具有消减误差比例的意义,这个系数的特色是在计算时会包括所有的边缘次数和条件次数。

在那么多相关系数中,在进行研究时,一般选择哪一个比较好?
在定类——定类关系中,如果是不对称关系,最好选择用的是Tau-y,如果是对称的关系,则最好选择用的是Lambda系数,Phi、C、V系数没有消减误差比例的意义,而且假定两个变量之间的关系是对称的。在这三个系数中,由于V不受表的大小的影响,因此用得比较多,也比较适合于进行社会学研究。
加载中,请稍候......