第三十二课 多元线性回归分析2
(2010-09-18 22:22:32)
标签:
杂谈 |
分类: SAS学习 |
1.
如果用菜单操作方法,可选择Globals/SAS/Assist/Data Analysis/Elementary/Correlation命令,再选择Active data set为study.bclass,Columns to be correlated为weight和height,然后提交运行。直接编写调用相关系数计算的程序为:
|
proc corr |
|
var
|
|
run ; |
运行后,在Output窗口得到如表32.6所示的结果。
表32.6 身高与体重(weight与height)的相关系数
|
Correlation Analysis 2 'VAR' Variables: Simple Statistics
Variable
WEIGHT
HEIGHT Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 40
WEIGHT
HEIGHT
|
2.
如果用菜单操作方法,可选择Globals/SAS/Assist/Data Analysis/Regression/Linear regression命令,再选择Active data set为study.bclass,Dependent为weight,Independent为height,然后提交运行。编程实现回归方法为:
|
proc reg |
|
model
|
|
run ; |
其中,模型参数r表示要输出残差分析,包括因变量的观察值、由输入数据和估计模型来计算的预测值、残差值、标准误差、学生化残差、COOKD统计量。模型参数clm表示对每个观察输出因变量期望值的95%置信上界和下界,仅考虑到参数估计的偏差,没有考虑误差项的偏差。模型参数cli表示对因变量的各个预测值输出95%置信上界和下界,这个置信界反映了误差的偏差以及参数估计的偏差。模型参数dw表示要进行误差项的独立性检验,计算Durbin-Watson统计量。运行后,在Output窗口得到如表32.7所示的结果。
表32.7
|
误差项的独立性检验 Durbin-Watson
D (For Number of
Obs.) 1st Order Autocorrelation 置信区间
…… 38 39 40 残差分析
7 …… Sum of
Residuals Sum of Squared
Residuals Predicted Resid SS (Press) |
回归分析根据所选择的模型参数的输出,分为若干段,下面逐个段地给以说明:
方差分析表提供关于拟合模型的一般信息。总观察数N=40,自变量个数k=1,回归模型带有截距i=1。回归模型的离差平方和RSS=1986.48457,自变量的个数k=1,所以自由度df=k=1,计算公式见式(31.29)。因变量的样本离差平方和TSS=3958.05375,自由度为df=N-1=40-1=39,计算公式见式(31.34)。误差项的样本离差平方和ESS=1971.56918,自由度df=N-k-1=40-1-1=38,计算公式见式(31.32)。注意TSS=RSS ESS,即3958.05375=1986.48457 1971.56918。回归模型的离差平方和平均值MSR=RSS/df=1986.48457/1=1986.48457,误差项的离差平方和平均值MSE=ESS/df=1971.56918/38=51.88340。在原假设所有自变量的回归系数都为0的情况下,本例只有一个自变量height,即H0: ,F(1,38)=MSR/MSE=1986.48457/51.88340=38.287,查F分布表,p值为0.0001小于显著水平0.05,表明可拒绝原假设,并有足够的证据断定回归线的斜率不为零。所以,这一模型拟合数据比基线模型好。
无偏的误差估计标准值Root MSE= = 7.20301,因变量weight平均值Dep Mean=47.66250,变异系数(或称方差系数)CV=Root MSE/Dep Mean×100=7.20301/47.66250×100=15.11254,它表示与单位无关的方差。R‑Square是0~1之间的值,它表示贡献给模型而不是贡献给拟合残差的总方差的那部分,它也称为决定系数或拟合优度,用于判断回归模型拟合好坏。R2=1-ESS/TSS=RSS/TSS=1986.48457/3958.05375= 0.5019,调整 R2=1-ESS/TSS×(N-i)/(N-k-i)=1-1971.56918/3958.05375×39/38=0.4888,R2越是接近1说明模型拟合得越好,等于1则说明完全拟合,没有任何信息丢失,本例的R2值表明有一半信息丢失没有被回归模型表示出来,通常R2应该超过0.7以上才比较好。
参数估计表给出截距和斜率的估计值,方程表明截距的估计值为-56.748575,斜率的估计值为0.681312,计算公式见式(31.17)和式(31.19)。估计截距的标准误差计算公式见式(31.37),其中,自变量height的平均值=153.25,自变量height的离差平方和=4279.5,估计误差 51.88340,所以估计截距的标准误差= 16.912396。在截距等于零的原假设下,计算出的t(38)=-56.748575/16.912396=-3.355,大于此临界点绝对值出现的概率为0.0018,远远地小于5%,有充足的理由否决截距为零的原假设。估计斜率的标准误差计算公式见式(31.38),估计斜率的标准误差= 0.1101077,在斜率等于零的原假设下,计算出的t(38)= 0.681312/0.1101077=6.188,大于此临界点绝对值出现的概率为0.0001,远远地小于5%,有充足的理由否决斜率为零的原假设。自由度为38的T分布,95%置信区间的双侧临界值为2.0243941,所以截距的95%置信区间的下界=-56.74857556.748575-2.0243941×16.912396=-90.98593007,上界=-56.74857556.748575+2.0243941×16.912396=-22.5112,斜率的95%置信区间的下界=0.681312-2.0243941×0.1101077=0.458410683,上界=0.681312+2.0243941×0.1101077=0.9042135。
置信区间分析,输出了weight因变量(Dep Var)的40条原始观察值和回归模型的预测均值(Predict
Value),及预测均值的标准差(Std Err Predict)、预测均值的置信区间下界(Lower95%
Mean)和上界(Upper95% Mean)、预测值的置信区间下界(Lower95% Predict)和上界(Upper95%
Predict)、残差(Residual)、残差的标准差(Std Err
Residual)。我们以第一条观察(Obs=1)为例来说明计算过程,已知第一条的观察 =43.1,
=145,根据回归模型最小二乘法计算出的估计参数,可以得到预测均值为
-56.748575+0.681312×145=42.0417。第一条观察的杠杆率 计算公式见式(31.42),
=0.040904311,所以预测均值的标准差=
残差分析,我们仍然以第一条观察为例来说明计算过程。残差=43.1000-42.0417= 1.0583。标准残差的计算公式见(31.46)式,标准残差= 7.054,学生化残差(Student Residual)=残差/标准残差=1.0583/7.054= 0.150。由于学生化残差服从标准正态分布,将学生化残差画在残差图上,我们可以清楚地看到大约68%的学生化残差值落在一个标准差-1到+1之间,而大约95%学生化残差值落在两个标准差-2到+2之间。基本上认为模型的误差项服从正态分布及满足同方差假设,在诊断上没有太大问题。残差之和=0,残差的平方和=1971.5692。
COOKD统计量用于预测每个观察点是否为强影响点或称异常点,它是通过删除这个观察点后重新用最小二乘估计求解参数值,来分析这个观察点。观察点的COOKD统计量小于50%,我们认为不存在异常情况。PRESS统计量是预测残差的平方和,第i个观察的残差定义为 ,其中, 为删除第i个观察后从余下的 组数据中重新用最小二乘法求出的参数估计而计算出的第i个观察的预测值。第i个观察的预测残差为 。
误差的独立性检验,它是回归模型的三大假设之一。我们采用针对残差一阶自相关性进行计算的Durbin-Watson统计量来检验,计算公式见式(31.48),相邻残差之差的平方和=2899.603,DW=2899.603/1971.56918=1.471,DW值靠近2说明误差基本上是独立的,小于2说明是正相关。残差一阶自相关系数=0.185,接近0也说明了误差基本上是独立的。残差一阶自相关系数的计算方法与一般的相关系数计算公式类似,残差值的第一个序列数据为第1个残差到第39个残差,第二个序列数据为第2个残差到第40个残差,第一、二个序列残差数据的平均值为0,标准化时(公式的分母)取1到40个残差值,即 。
3.
如果我们需要输出带有回归线的散点图,菜单操作方法是通过在additional options选项菜单中选择Regression Plots/Plots of dependent by independent columns命令,重新再提交一次。注意,此时还可以同时选择输出残差图。程序的方法是在proc reg过程里增加plot语句,要注意SAS的关键字使用在plot语句中时要加小圆点,这里是预测值p关键字,增加的plot语句如下:
|
plot |
如果我们需要输出高分辨率的回归线图形,可以先在reg过程中将拟合的预测值p输出到一个SAS数据集如bclassg中,再调用gplot过程绘制图形。增加的output语句如下:
|
output
|
绘制高分辨率的带有回归线的散点图程序如下:
|
goptions
|
|
proc gplot data=bclassg ; |
|
plot weight*height predict*height clil95*height cliu95*height/overlay; |
|
symbol1 |
|
symbol2 |
|
symbol3 |
|
symbol4 |
|
run ; |
注意,我们也可以用图形自带i=rlcli95选项,直接绘制预测值的置信区间上下界。运行后,在Graph窗口得到如图32.2所示的结果。
|
图32.2 |
从绘制出的带有回归线的图形可形象地看出模型拟合数据比只用均值预测的基线模型好。仔细观察图形,两条95%的上下预测值置信带呈现两头喇叭口。此外,还可用性别来分组,分别对男生和女生进行回归分析,分别建立男生和女生的回归模型。
例32.2
表32.8
|
变量名 |
含 义 |
|
age |
年龄 |
|
weight |
体重 |
|
oxygen |
耗氧量 |
|
runtime |
跑15英哩的时间(分) |
|
rstpulse |
休息时每分钟心跳次数 |
|
runpulse |
跑步时每分钟心跳次数 |
|
maxpulse |
每分钟心跳次数最大值 |
表32.9
|
age |
weight |
oxygen |
runtime |
rstpulse |
runpulse |
maxpulse |
|
44 |
89.47 |
44.609 |
11.37 |
62 |
178 |
182 |
|
40 |
75.07 |
45.313 |
10.07 |
62 |
185 |
185 |
|
44 |
85.84 |
54.297 |
8.65 |
45 |
156 |
168 |
|
42 |
68.15 |
59.571 |
8.17 |
40 |
166 |
172 |
|
38 |
89.02 |
49.874 |
9.22 |
55 |
178 |
180 |
|
47 |
77.45 |
44.811 |
11.63 |
58 |
176 |
176 |
|
40 |
75.98 |
45.681 |
11.95 |
70 |
176 |
180 |
|
43 |
81.19 |
49.091 |
10.85 |
64 |
162 |
170 |
|
44 |
81.42 |
39.442 |
13.08 |
63 |
174 |
176 |
|
38 |
81.87 |
60.055 |
8.63 |
48 |
170 |
186 |
|
44 |
73.03 |
50.541 |
10.13 |
45 |
168 |
168 |
|
45 |
87.66 |
37.388 |
14.03 |
56 |
186 |
192 |
|
45 |
66.45 |
44.754 |
11.12 |
51 |
176 |
176 |
|
47 |
79.15 |
47.273 |
10.60 |
47 |
162 |
164 |
|
54 |
83.12 |
51.855 |
10.33 |
50 |
166 |
170 |
|
49 |
81.42 |
49.156 |
8.95 |
44 |
180 |
185 |
|
51 |
69.63 |
40.836 |
10.95 |
57 |
168 |
172 |
|
51 |
77.91 |
46.672 |
10.00 |
48 |
162 |
168 |
|
48 |
91.63 |
46.774 |
10.25 |
48 |
162 |
164 |
|
49 |
73.37 |
50.388 |
10.08 |
76 |
168 |
168 |
|
57 |
73.37 |
39.407 |
12.63 |
58 |
174 |
176 |
|
54 |
79.38 |
46.080 |
11.17 |
62 |
156 |
165 |
|
52 |
76.32 |
45.441 |
9.63 |
48 |
164 |
166 |
|
50 |
70.87 |
54.625 |
8.92 |
48 |
146 |
155 |
|
51 |
67.25 |
45.118 |
11.08 |
48 |
172 |
172 |
|
54 |
91.63 |
39.203 |
12.88 |
44 |
168 |
172 |
|
51 |
73.71 |
45.790 |
10.47 |
59 |
186 |
188 |
|
57 |
59.08 |
50.545 |
9.93 |
49 |
148 |
155 |
|
49 |
76.32 |
48.673 |
9.40 |
56 |
186 |
188 |
|
48 |
61.24 |
47.920 |
11.50 |
52 |
170 |
176 |
|
52 |
82.78 |
47.467 |
10.50 |
53 |
170 |
172 |
在这个锻炼测试数据里,我们感兴趣的是耗氧量是如何依赖于其他变量的。

加载中…