加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

残差与标准化残差

(2015-05-06 22:36:21)
标签:

残差

标准化残差

glm

bootstrap

分类: 精算技术

在GLM建模中,我们会遇到两种残差。

Pearson残差:

http://s3/mw690/002aBOT1ty6S3ZvspBUc2&690


                                                                   

以及标准化Pearson残差:

http://s5/mw690/002aBOT1ty6S3Zw1RYw94&690

 

 

其实,标准化的Pearson残差就是在Pearson残差的基础上除以sqrt(φ(1-hi)) ,这其实暗含了两个调整:

  1. Scaling-将残差的标准差调整至1;
  2. De-leveraging-将残差通过杠杆系数hi进行去杠杆化。

比较有趣的是第二个去杠杆化的调整,为什么要这么做呢?

为方便阐述和理解,我们回到最简单的情形-普通线性回归。先看一个简单的例子,下表中是一个模拟的数据,其中的一些要点如下:

  •  a,b是真实的截距和斜率;
  • x通常在1左右变动,而观测8是一个关于x的异常值;
  • y=a+b*x+norm(0,1),在直线附近加上随机扰动生成;
  •  sigma^2=SSR/(n-p)=残差平方和/(8-2)
  • H是帽子矩阵,hi是其第i个对角线元素。

http://s2/mw690/002aBOT1ty6S40rAclX11&690

http://s4/bmiddle/002aBOT1ty6S3ZVK4Thb3&690

http://s1/mw690/002aBOT1ty6S3ZW04LK60&690

 

我们可以看到,由于是正态分布,V(μ)=1,ω=1,同时φ=sigma^2。那么问题就变得更为简单,我们只需要关注hi对Pearson残差的影响。可以看到,对于异常值观测8来说,其杠杆系数hi要显著大于其他观测,其Pearson残差也要显著小于其他观测,但是经过hi调整至标准化Pearson残差后,残差变得更加均匀可比。

 

这就是杠杆系数调整的目的:为了减轻”关于x的异常值”对于残差的扭曲效应。所谓关于x的异常值,也就是自变量取值较为异常,在图像上看可以是x轴最右侧的孤点,具体应用环境上可以是流量三角形某一年异常大的增量赔款。出于模型诊断或者对残差进行Bootstrap重抽样等目的,我们希望将残差的标准差调整至相同的水平,以防止关于x的异常值产生过小的残差,因此才需要进行这种“标准化”调整。当然,当对残差重抽样后,我们会重构模拟数据,这时候会对数据进行Releverage,还原至数据点原本的杠杆水平。

 

事实上,在这里我们要区分两个极易混淆的概念:随机误差和残差。随机误差指的是数据本身的不确定性带来的误差,通常我们假设随机误差独立且服从均值为0,方差相同的正态分布。而残差是指预测值与实际值的差,由于残差的计算要用到全部观测,因此残差之间并不是相互独立的,同时,残差的标准差也不完全相同,越是异常值的点,其对应的残差的波动性越小。具体的公式,可以在任何一本回归分析的教材中找到,在这里,我想用一个直观的方法来解释,可以看一下上面的散点图,显然,异常值的位置可以在很大程度上决定回归直线的指向—异常值可以撬动整个直线。

 

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有