计量经济学解释变量内生性问题
(2011-11-19 22:10:54)
标签:
杂谈 |
分类: 研究生涯 |
ols1:模型关于待估计的参数是线性的。
ols2:模型的数据来源问题。对于一般的横截面数据是独立同分布的。
ols3:E(u|X)=0。无内生性假定。
ols4:X之间没有完全多重的共线性。
ols5:Var(u|X)=a^2(a是一个常数)。
ols6:残差服从独立的相同的正态分布。
其中的ols1----ols4都是要保证估计的参数是一致的。其中的第三个假定就是内生性假定。
现实情况的描述:关于计量经济学中,我们需要估计偏效应。也就是说某一个自变量对因变量的影响问题。如果这个自变量和随机误差不相关,那么我们得到的这个ols的估计参数将是一致的,也可以说是效果良好的。但是现实情况并不是这样的,现实中的变量一般都是内生变量,也就是说两个变量不是单方面的决定作用,而是相互决定的作用。那么一般而言,只要我们测量有误差或者是遗漏变量,那么就可能存在内生性的问题,也就是我们没有办法得到一个一致性的估计。
代理变量和工具变量:
什么是代理变量?——遗漏变量的解决方法。在一个方程中,假设:y=b0+b1*x1+……+bn*xn+u。方程中的变量x和随机误差不相关,或者是我们可以容忍某种程度上的相关性,那么我们可以说我们对于参数的ols地估计值是满意的,但是如果在u中我们能知道某些变量和x相关,而且这个遗漏的变量是比较重要的,那么我们怎么才能得到一个更加好的参数的估计量呢?我们如果能找到一个变量和在u中的遗漏的变量q相关,而且这个变量要和x不相关,那么我们就可以把这个遗漏的变量加入到方程中进行回归。假设我们找到可以在某种程度上反映q的一个变量,或者是一组变量z,那么我们就可以把这个z放到方程中去做ols。得到的参数的估计值要比原先的好一些。但是这里存在问题,也就是z始终不是q,那么在某种程度上没有办法完全代表q。这样也会导致估计的参数存在一定的不一致,但是总是比原来那个没有z条件下估计出来的参数要好一些。但是在一定的情况之下,我们能知道到底是过高的估计,还是过低的估计。因为q=a0+a1*x1+a2*x2……+an*xn+c1*z1+c2*z2……+ck*zk。把这个方程带到原来的方程中(y=b0+b1*x1+……+bn*xn+c*q+u)。那么我们可以得到关于bi的估计值是bi+ai。实际上这个估计值也是有偏的。
实际上参数的估计值的偏向取决于两个因素,第一:遗漏变量q和z之间的关系,也就是协方差是正的还是负的。第二:取决于q和y的关系。如果:cov(q,z)>0且cov(q,y)>0,向上偏误。如果:cov(q,z)>0且cov(q,y)<0,向下偏误。如果cov(q,z)<0且cov(q,y)>0,向下偏误。cov(q,z)<0且cov(q,y)<0,向上偏误。
工具变量方法:工具变量法和代理变量方法是不同的,这个区别千万要注意,理念也是不同的。一般而言,工具变量方法可以解决遗漏变量问题,也可以解决测量误差问题。
现在先说测量误差的解决方法:比如在一个回归中,我们认为其中的一个变量xi有测量误差,而且这个测量误差和u相关,此时我们要找到一个变量z,满足两个条件:1、cov(xi,z)>0,2、cov(z,u)=0。满足这两个条件的情况之下,我们就是使用2sls方法进行回归。首先xi对X(不包括xi)和工具变量集合进行回归(工具变量不一定是一个,可能十多个,那么工具变量就可能是一个集合),进行回归,得到一个拟和的xi。此时做y对X(其中的xi用刚才那个回归中的得到的拟和值来替代)。此时做出的回归是一致的。
现在讨论隐性变量的问题:如何利用工具变量的方法来解决隐性变量的问题?