标签:
杂谈 |
分类: CrewsHE |
这一章其实还是统计学中的东西,还是同样的地方,就像下面的回归分析:
第九章 一元线性回归
本章重点学习和掌握统计关系与回归分析的基本概念,一元线性回归模型的建立与总离差平方和的分解和样本相关系数计算方法,一元线性回归显著性检验与模型适合性分析方法,E(Y)的区间估计和因变量Y的预测方法。
9.1 回归分析的基本概念
9.1.1 因变量(Y)与自变量(X)之间的关系
根据因变量与自变量之间的关系不同,可以分为两种类型:
一种是函数关系,即对两个变量X,Y来说,当X值确定后,Y值按照一定的规律唯一确定,即形成一种精确的关系。例如:微积分学中所研究的一般变量之间的函数关系就属于此种类型。
另一种是统计关系,即当X值确定后,Y值不是唯一确定的,但大量统计资料表明,这些变量之间还是存在着某种客观的联系。例如:图9-1在平面直角坐标系中,标出了10个观测点的坐标位置,他们表示以家庭为单位,某种商品年需求量与该商品价格之间的10对调查数据。
9.1.2 回归分析
回归分析(Regression
Analysis)就是应用统计方法,对大量的观测数据进行整理、分析和研究,从而得出反映事物内部规律性的一些结论。
图9-1 某种商品年需求量与价格关系图
9.2 一元线性回归模型
9.2.1 统计关系的两个特征
统计关系的两个特征:
(1)因变量Y随自变量X有规律地变化,而统计关系直线描述了这一变化的趋势。
(2)观测点散布在统计关系直线的周围,此种情况说明Y的变化除了受自变量X影响以外,还受其他因素的影响。
因此试图建立这样一个回归模型,通过对此模型所作的一些假设,可以体现出上述统计关系所刻划的特征。
9.2.2 一元线性回归模型假设
根据统计关系特征,可以进行下述假设:
(1)对于自变量的每一水平X,存在着Y的一个概率分布;
(2)这些Y的概率分布的均值,有规律地随X的变化而变化。
9.2.3一元线性回归模型
若Y与X具有统计关系而且是线性的,则可以建立下述一元线性回归模型:
Yi=β0+β1Xi+εi
(i=1,2,···,n)
(9-1)
其中,(Xi,Yi)表示(X,Y)的第i个观测值,β0,β1为参数,β0+β1Xi为反映统计关系直线的分量,εi为反映在统计关系直线周围散布的随机分量,εi~N
(0,σ2)。
对于任意Xi值有:
(1) Yi服从正态分布;
(2)
E(Yi)=β0+β1Xi;
(4) 各Yi间相互独立
Yi~N(β0+β1Xi,σ2)
。
散点图中需求量与价格之间线性统计关系的回归模型,具体描述如图9-2。这里给出价格为X=2与X=3时,需求量Y的概率分布。根据以上回归模型的假设,当X=2时,此时观测到的需求量
Y=3,是对应于X这一水平的Y的一次随机抽取结果。
图9-2 需求量与价格统计关系示意图
9.2.4 一元线性回归方程
对于图9-3,在坐标直角平面上,标出了10个观测点的坐标位置,他们表示以家庭为单位,某种商品年需求量与该商品价格之间的10对调查数据。若Y与X之间为线性关系,要想描述其关系,可以有无数条直线,需要在其中选出一条最能反映Y与X之间关系规律的直线。因此采用最小二乘法进行估计。
由于在一元线性回归模型Yi=β0+β1Xi+εi中β0和β1均未知,需要根据样本数据对它们进行估计,设β0和β1的估计值为b0和b1,则可建立一元线性回归模型如下:
图9-3 需求量与价格关系散点图
如图9-4所示。一般而言,所求的b0和b1应能使每个样本观测点(Xi,Yi)与回归直线之间的偏差尽可能小,即使观察值与拟合值的偏差平方和Q达到最小。
图9-4 回归方程原理图
使Q达到最小值的b0和b1称为最小二乘估计量。
显然,Q是b0和b1的二元函数,根据微积分中极值的必要条件,先分别求Q关于b0和b1的偏导数
然后令这两个偏导数等于零,整理后得正规方程组
解此方程组得到
9.2.5
最小二乘估计量b0,b1的特性
1. 线性特性
线性特性是指参数估计量b0,b1,分别是样本观测值Yi的线性组合,或者b0和b1分别是变量Yi的线性
参数。在统计学里,具有此种性质的估计量称为线性估计。
由(9-5)式可以得出
这表明b1是Yi的线性组合,即估计量b1为线性估计。同理,由(9-6)和(9-7)式可以得到
其中
因此b0也是线性估计。
2. 无偏性
无偏性是指b0和b1分别是β0和β1的无偏估计,可以证明
9.3 总平方和分解
9.3.1 总平方和分解
它表示没有X的影响,单纯考察数据中Y的变动情况。
表示各http://web.nuist.edu.cn/courses/tjx/zhang09/j0903/d0903011/t090301106.gif的变动程度,该变动是由于回归直线中各Xi的变动所引起的,并且通过X对Y的线性影响表现出来。
图9-5 总平方和分解图
表示各Yi围绕所拟合的回归直线的变动程度,SSTO=SSR+SSE。
SSE=SSTO-SSR
9.3.2 自由度的分解
总平方和SSTO含有n个离差http://web.nuist.edu.cn/courses/tjx/zhang09/j0903/d0903011/t090301114.gif有两个约束条件,故SSE的自由度ƒE为n-2。
回归平方和SSR的自由度fR为1,这是因为回归函数中有两个参数,而偏差http://web.nuist.edu.cn/courses/tjx/zhang09/j0903/d0903011/t090301116.gif,故自由度是2-1。
因此,自由度的分解可以表示为
n-1=1+(n-2)
ƒT=ƒR+ƒE
9.3.3 回归均方与误差均方
我们定义平方和除以它相应的自由度为均方。根据上面讨论的结果,在回归分析中,有两个均方,即回归均方与误差均方。回归均方记为MSR,误差均方记为MSE。
9.4 样本确定系数与样本相关系数
9.4.1 样本确定系数
当X与Y具有因果关系时,我们常把由于X的变动影响Y的变动的程度,说成是由X这一因素解释Y的变动时能解释多少;即,Y的总变差中能被X解释的那部分所占的比率,所占的比率愈大,说明X与Y相关的程度愈紧密。因此,我们定义下式
当样本的全部观察值都落在所拟和的回归直线上,这时SSE=0,
SSR=SSTO-SSE=SSTO;所以r2=1。
当X与Y无关,Y的变差完全由于不确定因素(或随机因素)引起,此时,SSR=0;所以,r2=0。
一般地,r2常介于0与1之间,r2愈接近1,说明Y与X线性相关程度愈高。
9.4.2 样本相关系数
为了既能描述Y对于X的线性相关程度,又能描述随X变化Y变化的方向,常采用另一种尺度,即r2的平方根,称为样本相关系数,定义如下:
http://web.nuist.edu.cn/courses/tjx/zhang09/j0904/d0904011/t090401104.gif它与b1具有相同的分子,
且r与b1的分母均为正,故r与b1有相同的符号,http://web.nuist.edu.cn/courses/tjx/zhang09/j0904/d0904011/t090401105.gif。各种情况见图9-6。
http://web.nuist.edu.cn/courses/tjx/zhang09/j0904/d0904011/t090401108.gif
http://web.nuist.edu.cn/courses/tjx/zhang09/j0904/d0904011/t090401109.gif
http://web.nuist.edu.cn/courses/tjx/zhang09/j0904/d0904011/t090401109.gif
图9-6 简单确定系数图示
9.5
一元线性回归显著性检验
以下可以证明,b1的方差
9.6模型适合性分析
9.6.1 误差项的异方差性检验
图9-7 误差项具有异方差性的残差图
如果观测值是来自一个时间序列的样本,则很可能出现误差项http://web.nuist.edu.cn/courses/tjx/zhang09/j0906/d0906011/t090601105.gif是不独立的,将残差et与时间t作残差图,将呈现出有规则的变化趋势。
图9-8 误差项具有负自相关性的残差图
图9-9 误差项具有正自相关性的残差图
我们称模型存在自相关(Autocorrelation)现象,也需按一定方法对数据进行修正,这在计量经济学课程中也有详细论述。
9.7
根据所得到样本数据,采用最小二乘法总是可以拟合一条直线来描述Y和X之间的关系。但是,样本资料具有随机性,因此,我们需要判断Y与X之间是否确实存在着线性关系,也就是需要判断Y对X的回归函数是否确实是一条直线。回归函数E(Y)=β0+β1X中,如果β1=0,则对于X的一切水平E(Y)=β0,说明Y的变化与X的变化无关,因而我们不能通过X去预测Y。对模型Yi=β0+β1Xi+εi,检验β1=0是否成立,等价于检验Y与X之间是否存在线性关系。 |