残差与标准化残差_且听风吟

http://blog.sina.com.cn/u/1989042771

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

残差与标准化残差

(2015-05-06 22:36:21)

标签：

残差

标准化残差

glm

bootstrap

分类：精算技术

在GLM建模中，我们会遇到两种残差。

Pearson残差：

http://s3/mw690/002aBOT1ty6S3ZvspBUc2&690

以及标准化Pearson残差：

http://s5/mw690/002aBOT1ty6S3Zw1RYw94&690

其实，标准化的Pearson残差就是在Pearson残差的基础上除以sqrt(φ(1-hi)) ，这其实暗含了两个调整：

Scaling-将残差的标准差调整至1；
De-leveraging-将残差通过杠杆系数hi进行去杠杆化。

比较有趣的是第二个去杠杆化的调整，为什么要这么做呢？

为方便阐述和理解，我们回到最简单的情形-普通线性回归。先看一个简单的例子，下表中是一个模拟的数据，其中的一些要点如下：

a，b是真实的截距和斜率；
x通常在1左右变动，而观测8是一个关于x的异常值；
y=a+b*x+norm(0,1)，在直线附近加上随机扰动生成；
sigma^2=SSR/(n-p)=残差平方和/(8-2)；
H是帽子矩阵，hi是其第i个对角线元素。

http://s2/mw690/002aBOT1ty6S40rAclX11&690

http://s4/bmiddle/002aBOT1ty6S3ZVK4Thb3&690

http://s1/mw690/002aBOT1ty6S3ZW04LK60&690

我们可以看到，由于是正态分布，V(μ)=1，ω=1，同时φ=sigma^2。那么问题就变得更为简单，我们只需要关注hi对Pearson残差的影响。可以看到，对于异常值观测8来说，其杠杆系数hi要显著大于其他观测，其Pearson残差也要显著小于其他观测，但是经过hi调整至标准化Pearson残差后，残差变得更加均匀可比。

这就是杠杆系数调整的目的：为了减轻”关于x的异常值”对于残差的扭曲效应。所谓关于x的异常值，也就是自变量取值较为异常，在图像上看可以是x轴最右侧的孤点，具体应用环境上可以是流量三角形某一年异常大的增量赔款。出于模型诊断或者对残差进行Bootstrap重抽样等目的，我们希望将残差的标准差调整至相同的水平，以防止关于x的异常值产生过小的残差，因此才需要进行这种“标准化”调整。当然，当对残差重抽样后，我们会重构模拟数据，这时候会对数据进行Releverage，还原至数据点原本的杠杆水平。

事实上，在这里我们要区分两个极易混淆的概念：随机误差和残差。随机误差指的是数据本身的不确定性带来的误差，通常我们假设随机误差独立且服从均值为0，方差相同的正态分布。而残差是指预测值与实际值的差，由于残差的计算要用到全部观测，因此残差之间并不是相互独立的，同时，残差的标准差也不完全相同，越是异常值的点，其对应的残差的波动性越小。具体的公式，可以在任何一本回归分析的教材中找到，在这里，我想用一个直观的方法来解释，可以看一下上面的散点图，显然，异常值的位置可以在很大程度上决定回归直线的指向—异常值可以撬动整个直线。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：巨灾损失对再保合同组合的边际影响分析

后一篇：广义线性模型与ILF相对数估计

新浪BLOG意见反馈留言板　欢迎批评指正