两变量间相关关系的测量方法

在物理类文献中见到判断相关的方法比较单一,不如社会学那么丰富。尽管有不少相关系数以前并未遇到,但也在整理的过程中同时学习。下面是自己整理的两变量间相关关系的测量方法。难免疏漏,请各位加以修正补充。
一、相关关系
二、变量类型
分 |
定 |
举 |
数学特征 |
定类变量 |
按照对象的某种特征划分类别 |
性别 科目 |
=、≠ |
定序变量 |
按照对象的某种特征,把类别按顺序、等级排列 |
评价等级 |
=、≠ >、< |
定距变量 |
对象不仅可按特征排序,而且还可以测量序列间的距离 |
年龄 工资 |
=、≠;>、<;+、— (定比变量还包括×、÷) |
定类变量 |
要求变量的特征分类具有可辨别性,且不同类别应无同一性的性质。 |
定序变量 |
要求变量的特征与属性可以排序或分等级。 |
定距变量 |
要求测量单位具有相等的意义,且没有绝对意义的“零点”。 |
定比变量 |
要求测量单位具有相等的意义,且有一个绝对意义的“零点”。 |
(一)绘制散点图
(略)
(二)计算相关系数
1.定类变量——定类变量
(1)φ-Phi系数
(2)C系数,也称列联系数
(5) Goodman and Kruskal的Tau-y系数
为了避免以卡方为基础的量度系数的弱点,统计学家已经发展出各种其他方法,其中最流行的就是减少误差比例量度法(Proportional-reduction-in-error measures,简称PRE)
例:性别与吸烟态度的交互分类(人)
态度 Y |
|
合计 |
|
|
|
赞同 反对 |
|
114 86 |
合计 |
|
200 |
因此,我们可以说,性别与对吸烟态度之间存在中等程度的相关。
(5) Goodman and Kruskal的Tau-y系数
当X与Y不相关时,τ=0 ;当X与Y完全相关时,τ=1 。τ值具有非对称性,它是以X为自变量,用对Y的预测来定义的,所以τ值也称作τy 。
2.定序变量——定序变量
(1)Gamma系数(G系数):分析两个变量间的对等关系,即无自变量与因变量之分。
式中,γ为系数;ns为同序对数目;nd为异序对数目。
所谓序对是指表明高低位次的两两配对,如果一对个案在变量x,y的分类表现位次一致,则为同序对;如果位次相反,则为异序对。(同序对数量等于表内每个频数乘以其右下方全部频数之和,然后加总,而异序对数量则等于表内每个频数乘以其左下方全部频数之和,然后加总。)
-1≤γ≤1,γ>0且越接近1,表明X、Y两变量正相关的程度越高;γ<0且越接近-1,表明X、Y两变量负相关的程度越高。
例:文化程度与收入的交互分类表
收入水平 |
|
合计 |
大专以上 |
|
|
高 中 低 |
|
25 43 32 |
合计 |
|
100 |
ns=12×(30+5+16+12)+10×(5+12)+8×(16+12)+30×12=1510
nd=3×(30+8+16+4)+10×(8+4)+5×(4+16)+30×4=514
说明用文化程度去预测收入水平,可以消减49%的误差。
Gamma相关测量法是一对称形式的测量,即如果X、Y都是定序层次的变量则用X预测Y,与用Y预测X相比,其相关程度一样。
(2)
ny表示仅在Y变量上的同分对数目;nx表示仅在X变量上的同分对数目。
dxy系数表示大小是以X变量预测Y变量时所能减少的误差;dyx系数表示大小是以Y变量预测X变量时所能减少的误差。dxy系数具有减少误差比例的意义。
例:子女的文化程度高低是否受父辈文化程度影响。
子辈文化程度 |
父辈文化程度 |
|
大学 |
||
大学 中学 小学 |
41 20 2 |
14 |
|
63 |
|
这是一个非对称的两定序变量的相关问题研究。
ns=41×(14+4+3+9)+4×(4+9)+20×(3+9)+14×9=1648
nd=3×(20+14+3+2)+4×(20+2)+4×(2+3)+14×2=253
ny=41×(4+3)+4×3+20×(14+4)+14×4+2×(3+9)+3×9=796
所以,
这说明子辈的文化程度与父辈的文化程度呈正相关关系,同时以父辈的文化程度预测子辈的文化程度可以减少51.72%的误差。
(3)
式中,di=Rxi-Ryi,Rxi表示xi的名次,Ryi表示yi的名次(从大到小排名次,或从小到大排名次,都可以)。两个相同的名次,要加起来除以2。
(4)Kendall tau等级相关系数(τ)
要求数据至少具有定序测量级,与Gamma系数不同的是,Gamma系数没有考虑同分对,而Kendall等级相关技术考虑了同分对影响的等级关系。
τa=1说明两样本秩完全正相关,τa=-1说明两样本秩完全负相关,一般|τ|>0.8可认为相关程度较高。
当配对数据出现同分对时,对τa的计算公式作如下校正,校正后的相关系数记作τb:
其中:Tx表示变量X方向的全部同分对数;
当同分对很多时,可先做成等级的列联表,此时Kendall等级相关系数为:
其中m是等级列联表中行数和列数中的较小者,即m=min(I,J)。
-1≤3×Kendall tau – 2×Spearman R≤1