加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

FRM(8)回归分析

(2009-11-08 15:34:15)
标签:

杂谈

分类: CrewsHE
这一章其实还是统计学中的东西,还是同样的地方,就像下面的回归分析:


第九章 一元线性回归

本章重点学习和掌握统计关系与回归分析的基本概念,一元线性回归模型的建立与总离差平方和的分解和样本相关系数计算方法,一元线性回归显著性检验与模型适合性分析方法,E(Y)的区间估计和因变量Y的预测方法。

9.1 回归分析的基本概念

9.1.1 因变量(Y)与自变量(X)之间的关系

根据因变量与自变量之间的关系不同,可以分为两种类型:

一种是函数关系,即对两个变量X,Y来说,当X值确定后,Y值按照一定的规律唯一确定,即形成一种精确的关系。例如:微积分学中所研究的一般变量之间的函数关系就属于此种类型。

另一种是统计关系,即当X值确定后,Y值不是唯一确定的,但大量统计资料表明,这些变量之间还是存在着某种客观的联系。例如:图9-1在平面直角坐标系中,标出了10个观测点的坐标位置,他们表示以家庭为单位,某种商品年需求量与该商品价格之间的10对调查数据。


回归分析(Regression Analysis)就是应用统计方法,对大量的观测数据进行整理、分析和研究,从而得出反映事物内部规律性的一些结论。


图9-1 某种商品年需求量与价格关系图

 

9.2 一元线性回归模型

9.2.1 统计关系的两个特征

统计关系的两个特征:

(1)因变量Y随自变量X有规律地变化,而统计关系直线描述了这一变化的趋势。

(2)观测点散布在统计关系直线的周围,此种情况说明Y的变化除了受自变量X影响以外,还受其他因素的影响。

因此试图建立这样一个回归模型,通过对此模型所作的一些假设,可以体现出上述统计关系所刻划的特征。

9.2.2 一元线性回归模型假设

根据统计关系特征,可以进行下述假设:

(1)对于自变量的每一水平X,存在着Y的一个概率分布;

(2)这些Y的概率分布的均值,有规律地随X的变化而变化。

9.2.3一元线性回归

若Y与X具有统计关系而且是线性的,则可以建立下述一元线性回归模型:

Yi=β0+β1Xi+εi   (i=1,2,···,n)                  (9-1)

其中,(Xi,Yi)表示(X,Y)的第i个观测值,β01为参数,β01Xi为反映统计关系直线的分量,εi为反映在统计关系直线周围散布的随机分量,εi~N (0,σ2)。

对于任意Xi值有:

(1) Yi服从正态分布;

(2) E(Yi)=β0+β1Xi


(4) 各Yi间相互独立  Yi~N(β01Xi2) 。

散点图中需求量与价格之间线性统计关系的回归模型,具体描述如图9-2。这里给出价格为X=2与X=3时,需求量Y的概率分布。根据以上回归模型的假设,当X=2时,此时观测到的需求量 Y=3,是对应于X这一水平的Y的一次随机抽取结果。


图9-2 需求量与价格统计关系示意图


9.2.4 一元线性回归方程

对于图9-3,在坐标直角平面上,标出了10个观测点的坐标位置,他们表示以家庭为单位,某种商品年需求量与该商品价格之间的10对调查数据。若Y与X之间为线性关系,要想描述其关系,可以有无数条直线,需要在其中选出一条最能反映Y与X之间关系规律的直线。因此采用最小二乘法进行估计。

由于在一元线性回归模型Yi=β0+β1Xi+εiβ0β1均未知,需要根据样本数据对它们进行估计,设β0β1的估计值为b0和b1,则可建立一元线性回归模型如下:



图9-3 需求量与价格关系散点图

如图9-4所示。一般而言,所求的b0和b1应能使每个样本观测点(Xi,Yi)与回归直线之间的偏差尽可能小,即使观察值与拟合值的偏差平方和Q达到最小。


图9-4 回归方程原理图


使Q达到最小值的b0和b1称为最小二乘估计量

显然,Q是b0和b1的二元函数,根据微积分中极值的必要条件,先分别求Q关于b0和b1的偏导数



然后令这两个偏导数等于零,整理后得正规方程组



解此方程组得到



9.2.5 最小二乘估计量b0,b1特性

1. 线性特性

线性特性是指参数估计量b0,b1,分别是样本观测值Yi的线性组合,或者b0和b1分别是变量Yi的线性 参数。在统计学里,具有此种性质的估计量称为线性估计。

由(9-5)式可以得出




这表明b1是Yi的线性组合,即估计量b1为线性估计。同理,由(9-6)和(9-7)式可以得到


其中


因此b0也是线性估计。


无偏性是指b0和b1分别是β0和β1的无偏估计,可以证明


9.3 总平方和分解

9.3.1 总平方和分解





它表示没有X的影响,单纯考察数据中Y的变动情况。


表示各http://web.nuist.edu.cn/courses/tjx/zhang09/j0903/d0903011/t090301106.gif的变动程度,该变动是由于回归直线中各Xi的变动所引起的,并且通过X对Y的线性影响表现出来。


图9-5 总平方和分解图


表示各Yi围绕所拟合的回归直线的变动程度,SSTO=SSR+SSE



SSE=SSTO-SSR

9.3.2 自由度的分解

总平方和SSTO含有n个离差http://web.nuist.edu.cn/courses/tjx/zhang09/j0903/d0903011/t090301114.gif有两个约束条件,故SSE的自由度ƒE为n-2。

回归平方和SSR的自由度fR为1,这是因为回归函数中有两个参数,而偏差http://web.nuist.edu.cn/courses/tjx/zhang09/j0903/d0903011/t090301116.gif,故自由度是2-1。

因此,自由度的分解可以表示为

n-1=1+(n-2)

ƒTRE

9.3.3 回归均方与误差均方

我们定义平方和除以它相应的自由度为均方。根据上面讨论的结果,在回归分析中,有两个均方,即回归均方与误差均方。回归均方记为MSR,误差均方记为MSE

http://web.nuist.edu.cn/courses/tjx/zhang09/j0903/d0903011/t090301117.gif                             (9-10)

http://web.nuist.edu.cn/courses/tjx/zhang09/j0903/d0903011/t090301118.gif                             (9-11)

9.4 样本确定系数与样本相关系数

9.4.1 样本确定系数

当X与Y具有因果关系时,我们常把由于X的变动影响Y的变动的程度,说成是由X这一因素解释Y的变动时能解释多少;即,Y的总变差中能被X解释的那部分所占的比率,所占的比率愈大,说明X与Y相关的程度愈紧密。因此,我们定义下式



当样本的全部观察值都落在所拟和的回归直线上,这时SSE=0, SSR=SSTO-SSE=SSTO;所以r2=1。

当X与Y无关,Y的变差完全由于不确定因素(或随机因素)引起,此时,SSR=0;所以,r2=0。

一般地,r2常介于0与1之间,r2愈接近1,说明Y与X线性相关程度愈高。

9.4.2 样本相关系数

为了既能描述Y对于X的线性相关程度,又能描述随X变化Y变化的方向,常采用另一种尺度,即r2的平方根,称为样本相关系数,定义如下:

http://web.nuist.edu.cn/courses/tjx/zhang09/j0904/d0904011/t090401104.gif它与b1具有相同的分子, 且r与b1的分母均为正,故r与b1有相同的符号,http://web.nuist.edu.cn/courses/tjx/zhang09/j0904/d0904011/t090401105.gif。各种情况见图9-6。



图9-6 简单确定系数图示

9.5 一元线性回归显著性检验

 

以下可以证明,b1的方差





9.6模型适合性分析

    在对一元线性回归模型的适合性进行分析时,由于误差项http://web.nuist.edu.cn/courses/tjx/zhang09/j0906/d0906011/t090601102.gif的图像,来考察模型是否存在以下情况:异方差性和自相关性。

9.6.1 误差项的异方差性检验

   http://web.nuist.edu.cn/courses/tjx/zhang09/j0906/d0906011/t090601103.gif不具有常数方差,称模型存在异方差性。此时,残差如图9-7所示,数据点呈现发散或收敛趋势。 在此种情况下,最小二乘法失效,因此需按照一定方法对数据进行变换,在计量经济学课程中,对此有详细讲述。


图9-7 误差项具有异方差性的残差图

9.6.2 误差项的自相性检验

如果观测值是来自一个时间序列的样本,则很可能出现误差项http://web.nuist.edu.cn/courses/tjx/zhang09/j0906/d0906011/t090601105.gif是不独立的,将残差et与时间t作残差图,将呈现出有规则的变化趋势。


图9-8 误差项具有负自相关性的残差图


图9-9 误差项具有正自相关性的残差图

我们称模型存在自相关(Autocorrelation)现象,也需按一定方法对数据进行修正,这在计量经济学课程中也有详细论述。



9.7  E(Y)的区间估计

9.5.1 b1的抽样分
为了检验β1=0是否成立,需要构造一个合适的统计量,因此,首先讨论b1的抽样分布。
因为b1具有线性特性,即b1是观测值Yi的线组合,而Yi是正态分布的随机变量,且相互独立,故b1也是服从正态分布的随机变量。
又因b1具有无偏性,即其均值E(b1)=β1

http://web.nuist.edu.cn/courses/tjx/zhang09/j0905/d0905011/t090501101.gif                       (9-13)

因为http://web.nuist.edu.cn/courses/tjx/zhang09/j0905/d0905011/t090501103.gif

http://web.nuist.edu.cn/courses/tjx/zhang09/j0905/d0905011/t090501104.gif


所以,b1是服从http://web.nuist.edu.cn/courses/tjx/zhang09/j0905/d0905011/t090501105.gif的随机变量。
9.5.2 F 检验
在一元线性回归中,为了检验Y对于X线性关系的统计显著性,β1进行F检验的步骤为:
(1) 提出假设:H0:β1=0,H1:β1≠0。

(2) 构造并计算统计量:

http://web.nuist.edu.cn/courses/tjx/zhang09/j0905/d0905011/t090501106.gif                         (9-14)

(3) 查F分布临界值表,得临界值http://web.nuist.edu.cn/courses/tjx/zhang09/j0905/d0905011/t090501107.gif
(4) 比较:若F<http://web.nuist.edu.cn/courses/tjx/zhang09/j0905/d0905011/t090501108.gif接受H0,认为Y与X不存在一元线性关系。

9- 方差分析表

变差来源

平方和

自由度

均方差

F

回归

http://web.nuist.edu.cn/courses/tjx/zhang09/j0905/d0905011/t090501109.gif

1

http://web.nuist.edu.cn/courses/tjx/zhang09/j0905/d0905011/t090501110.gif

http://web.nuist.edu.cn/courses/tjx/zhang09/j0905/d0905011/t090501111.gif

误差

http://web.nuist.edu.cn/courses/tjx/zhang09/j0905/d0905011/t090501112.gif

n-2

http://web.nuist.edu.cn/courses/tjx/zhang09/j0905/d0905011/t090501113.gif

总和

http://web.nuist.edu.cn/courses/tjx/zhang09/j0905/d0905011/t090501114.gif

n-1

———-

———-








F>http://web.nuist.edu.cn/courses/tjx/zhang09/j0905/d0905011/t090501115.gif拒绝H0,认为Y与X存在一元线性关系。

将各部分计算结果集中列于方差分析表内,如表91所示

9.5.3t
t检验的步骤为:
(1)  提出假设

 
H1: http://web.nuist.edu.cn/courses/tjx/zhang09/j0905/d0905011/t090501117.gif
(2)  构造并计算统计量:

http://web.nuist.edu.cn/courses/tjx/zhang09/j0905/d0905011/t090501119.gif                                         (9-15)

其中http://web.nuist.edu.cn/courses/tjx/zhang09/j0905/d0905011/t090501120.gif

(4)  比较:

http://web.nuist.edu.cn/courses/tjx/zhang09/j0905/d0905011/t090501123.gif, 接受H0
http://web.nuist.edu.cn/courses/tjx/zhang09/j0905/d0905011/t090501125.gif, 拒绝H0
9.5.4利用样本相关系数进行统计检验
利用样本相关系数进行统计检验的步骤为:

(1)提出假设

H0: http://web.nuist.edu.cn/courses/tjx/zhang09/j0905/d0905011/t090501126.gif
H1: http://web.nuist.edu.cn/courses/tjx/zhang09/j0905/d0905011/t090501129.gif:为总体Y与X的线性相关系数)


(4)  比较:

http://web.nuist.edu.cn/courses/tjx/zhang09/j0905/d0905011/t090501133.gif, 接受H0
http://web.nuist.edu.cn/courses/tjx/zhang09/j0905/d0905011/t090501135.gif, 拒绝H0
因为误差项http://web.nuist.edu.cn/courses/tjx/zhang09/j0907/d0907011/t090701106.gif

http://web.nuist.edu.cn/courses/tjx/zhang09/j0907/d0907011/t090701107.gif                      (9-16)

可以证明,对于一元线性模型,以下随机变量

http://web.nuist.edu.cn/courses/tjx/zhang09/j0907/d0907011/t090701108.gif                              (9-17)

服从自由度为n-2的t分布。因此可以得到,在置信度为1-α时,E(Y0)的置信区间为

http://web.nuist.edu.cn/courses/tjx/zhang09/j0907/d0907011/t090701109.gif         (9-18)

其中:http://web.nuist.edu.cn/courses/tjx/zhang09/j0907/d0907011/t090701110.gif                           (9-19)


9.8 因变量Y的预测






可以证明,随机变量

http://web.nuist.edu.cn/courses/tjx/zhang09/j0908/d0908011/t090801116.gif                        (9-22)

服从自由度为n-2的t分布。在给定置信度1-α情况下,因变量单个值Y0的置信区间为:


这一章其实没有那么难的,我们要掌握的东西也没有那么繁杂,这里只是想给自己复习一下,其实只要知道几个公式的计算就好了,而且这些公式应该也是不需要记的,熟能生巧,时间其实不够。写几道题掌握大概的就好了

 

 

根据所得到样本数据,采用最小二乘法总是可以拟合一条直线来描述Y和X之间的关系。但是,样本资料具有随机性,因此,我们需要判断Y与X之间是否确实存在着线性关系,也就是需要判断Y对X的回归函数是否确实是一条直线。回归函数E(Y)=β01X中,如果β1=0,则对于X的一切水平E(Y)=β0,说明Y的变化与X的变化无关,因而我们不能通过X去预测Y。对模型Yi01Xii,检验β1=0是否成立,等价于检验Y与X之间是否存在线性关系。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有