|
标签:校园生活 |
关于分段线性模型的讨论在中国经济学教育科研网经济学论坛成为精华贴。
我在这个论坛逛了好几年了。这是第一次被加精。这个问题本身不难,也谈不上什么重大学术意义。但它首先是真实的,是我在学习中经过思考遇到的真实问题,然后我清晰地把问题表述了出来。古人云:“学患无疑,疑则有进”。这里的“疑”一定是指真实的问题。什么是真实的问题?我想它有两个基本的特点:1,提问者经过认真思考。这就使得提问的过程变成一个交流的过程而非独语的过程。在常见教材中就能找到现成答案的显然不能算是此类。2,问题要表述尽量具体、准确。在你试图把自己的问题表述清晰的时候,你其实就是在对问题本身进行分析。很多问题在这个过程中自然就得到解决了。诸如“怎么学英语”之类的问题大都因为过于广泛、含混而没有什么意义。
分段线性模型本身,我并不认为有什么关键性意义。但通过这个讨论,

网友tasteconomic
我觉得红色标志的方程并不优于古扎拉蒂的模型。红色标出的方程直接加了一个DUM
古扎拉蒂的模型的最大特点就是保证了两个方程在output=5500时是连续的。而我做的模型在output=5500时候确实是不连续的。
古扎拉蒂的模型考虑了斜率和截距的不同,这是比较容易用虚拟变量解决的:TOTALCOST = 59.6 + 0.1858*OUTPUT + 96.2*DUM + 0.0945*OUTPUT*DUM 这里的dum不显著而OUTPUT*DUM显著。(仍然用Newey-West标准误来处理自相关和异方差)。用这种方法就能判断处在output=5500前后两个阶段斜率发生了显著变化而截距没有发生显著变化。
古扎拉蒂的模型的问题在于它只能检验斜率和截距是否同时发生了变化,它没有考虑其中一个发生变化而另一个没有发生变化的情形。一旦(output-5500)*dum不显著我们就只能说斜率和截距没有显著变化。在这点上,TOTALCOST = 59.6 + 0.1858*OUTPUT + 96.2*DUM + 0.0945*OUTPUT*DUM显然优于古扎拉蒂的模型。
当然这些所有的模型都逃不过一个根本问题——样本量太小!很多推断都必须基于大样本。
网友们还强调了画图的重要性,这是我平时所忽略的。
通过讨论我比较彻底地掌握了分段线性模型,谢谢网友!
以上三个回归表明,全部数据综合起来回归系数最大,是因为前5年为一组,和后5年为一组,在两组之间有一个跳跃(totalcost有一个落差)。用古扎拉蒂的方法,分段回归其减去5500似乎是变相地允许常数项的变化,所以减少了这种落差的影响。而楼主直接用虚拟变量的方法,不同段用的是同一个公共常数,所以斜率的变化要大得多。体现在交叉项dd2 和dd 的区别上。前一个从前5个0突然跳到6000,后一跳跃幅度少了5500。
我觉得古扎拉蒂的结论更可取。不过还有进一步研究的必要,找些书来看看吧。
至于结构变化,最好参考一下(chow test)邹至庄检验。
http://www.stata.com/support/faqs/stat/chow3.html
久了不看书都要忘了。
daniel:
得到版主的亲自的、如此迅速的回复实在是非常感谢。谢谢!
您说道“分段回归其减去5500似乎是变相地允许常数项的变化,所以减少了这种落差的影响”其实我也曾考虑到让截距不同:
如果以dum表示虚拟变量,dd2表示用你的方法引入的虚拟变量,dd表示用古扎拉蒂方法(分段回归)引入的虚拟变量,则将所有数据列在下面:
请教关于“分段线性”
请见古扎拉蒂,中文版(第三版)第514