残差与标准化残差

标签:
残差标准化残差glmbootstrap |
分类: 精算技术 |
在GLM建模中,我们会遇到两种残差。
Pearson残差:
http://s3/mw690/002aBOT1ty6S3ZvspBUc2&690
以及标准化Pearson残差:
http://s5/mw690/002aBOT1ty6S3Zw1RYw94&690
其实,标准化的Pearson残差就是在Pearson残差的基础上除以sqrt(φ(1-hi)) ,这其实暗含了两个调整:
-
Scaling-将残差的标准差调整至1;
-
De-leveraging-将残差通过杠杆系数hi进行去杠杆化。
比较有趣的是第二个去杠杆化的调整,为什么要这么做呢?
为方便阐述和理解,我们回到最简单的情形-普通线性回归。先看一个简单的例子,下表中是一个模拟的数据,其中的一些要点如下:
-
a,b是真实的截距和斜率; -
x通常在1左右变动,而观测8是一个关于x的异常值;
-
y=a+b*x+norm(0,1),在直线附近加上随机扰动生成;
-
sigma^2=SSR/(n-p)=残差平方和/(8-2); -
H是帽子矩阵,hi是其第i个对角线元素。
http://s2/mw690/002aBOT1ty6S40rAclX11&690
http://s4/bmiddle/002aBOT1ty6S3ZVK4Thb3&690
http://s1/mw690/002aBOT1ty6S3ZW04LK60&690
我们可以看到,由于是正态分布,V(μ)=1,ω=1,同时φ=sigma^2。那么问题就变得更为简单,我们只需要关注hi对Pearson残差的影响。可以看到,对于异常值观测8来说,其杠杆系数hi要显著大于其他观测,其Pearson残差也要显著小于其他观测,但是经过hi调整至标准化Pearson残差后,残差变得更加均匀可比。
这就是杠杆系数调整的目的:为了减轻”关于x的异常值”对于残差的扭曲效应。所谓关于x的异常值,也就是自变量取值较为异常,在图像上看可以是x轴最右侧的孤点,具体应用环境上可以是流量三角形某一年异常大的增量赔款。出于模型诊断或者对残差进行Bootstrap重抽样等目的,我们希望将残差的标准差调整至相同的水平,以防止关于x的异常值产生过小的残差,因此才需要进行这种“标准化”调整。当然,当对残差重抽样后,我们会重构模拟数据,这时候会对数据进行Releverage,还原至数据点原本的杠杆水平。
事实上,在这里我们要区分两个极易混淆的概念:随机误差和残差。随机误差指的是数据本身的不确定性带来的误差,通常我们假设随机误差独立且服从均值为0,方差相同的正态分布。而残差是指预测值与实际值的差,由于残差的计算要用到全部观测,因此残差之间并不是相互独立的,同时,残差的标准差也不完全相同,越是异常值的点,其对应的残差的波动性越小。具体的公式,可以在任何一本回归分析的教材中找到,在这里,我想用一个直观的方法来解释,可以看一下上面的散点图,显然,异常值的位置可以在很大程度上决定回归直线的指向—异常值可以撬动整个直线。