加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

社会科学中的“随机(田野)实验”方法是个死胡同

(2015-12-12 09:17:33)
分类: 学术话题

社会科学中的“随机(田野)实验”方法是个死胡同

 

       几年前,我在好几个场合就对经济学和政治学中越来越多的所谓的随机(田野)实验方法(randomized field experiment”) 嗤之以鼻,并且认为这将undermine(削弱)经济学和政治学,或至少是将经济学和政治学引入歧途,直到进入死胡同。【我们应该庆幸,社会学好像没有中毒,尽管社会学和社会心理学很近,似乎更容易走入实验法。】

 

       算经济学和政治学里好有些清醒的人士。因此,对这些所谓的实验方法的经济学(和政治学)提出了许多质疑(不幸的是,政治学好像还在继续向死胡同走呀)。

 

【以下这几篇文章都是经济学的大牛(DeatonHeckman都是诺贝尔经济学奖的获得者,其他的几位也都是牛人)写的批评文章,其中的一两篇可能会成为以后我的课程中的制定读物(比如Deaton的文章)。】

 

Angus Deaton, 2010. “Instruments, Randomization, and Learning about Development,” Journal of Economic Literature 48 (2): 424-455这篇文章写得非常好,值得每一位做定量的学生和学者好好读读,这篇文章会成为我以后课程中的必读文章。(文章中的数学推导非常简洁,就是简单的道理,绝大部分同学花点功夫都可以看懂。)

 

Christopher A. Sims. 2010. “But Economics is Not an Experimental Science,” Journal of Economic Perspectives 24 (2): 59-68.

 

但是,这些批评还只是停留在口水战的水平:推崇“RCT实验方法”的人还是可以说,你们说的那些批评也许有道理,但是我们的结果就是很牛逼(还可以发好期刊)!

 

于是,LSEAllyn Young(也绝对是大牛了吧)直接都这么办了:这位老兄花了三年时间,对53篇发表在美国经济学协会(AEA)旗下的杂志的实验方法的文章做了一个random testing的重新检验(检验这些文章中的2003个回归)。发现,只有25%或最多一半的文章能够表明treatment是有用(has an effect)的(Young 20152)。而这些显著的回归结果甚至很多都是用的错误的模型(比如,固定效应,clustered SE标准误)。

 

看到这样的结果,哥伦比亚大学的Chris Blattman (他本人也是实验方法的推动者和受益者)感到非常有压力。于是写了一个blogBlattman大致的意思就是:PH.D们,很抱歉,我们发了一堆实验的(牛)文章,所以,你们也不得不步我们的后尘。但是,我们不看好这方面的未来前景:这方面的文章可能会越来越难以发表。所以,你们自己看着办吧。【我甚至也怀疑,他自己的field experiment的结果是否可靠。你们可以去看看。】

 

Blattman的博客的标题就是:“if you run field experiments, this might be the paper that will make it harder to publish your work in a few years.”

 

http://chrisblattman.com/2015/12/07/if-you-run-field-experiments-this-might-be-paper-that-will-make-it-harder-to-publish-your-work-in-a-few-years/?utm_content=buffer0e9a2&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer

 

但是,也正是因为Blattman担心的是如何发文章(他手头可能有好几篇这样的文章,他上个月刚到UCSD来讲的也是一篇这样的东西,我干脆就没去听)他没有看到Young对实验社会科学的致命批评。【而且还在为“实验社会科学”辩护。

 

Young2015, 27-28)的核心批评其实就是:如果你的结果确实是实验得来的结果,那么你是不能用通常的计量经济学的回归模型来分析这样的结果的。

 

要分析实验结果,你要回到Sir Ronald Fisher1935)就基本确立的准则(randomization statistical inference, RSI or RI):分析实验结果,我们要看到的是单个的treatment的在每一个被treated了的个体上的effect,而这些effect在被实验了的个体的总样本中是统计显著的。同时,我们还需要确认,这样的effect在没有被treated了的个体(或至少是样本)是不出现的。关于Fisher,我此前一个博客有介绍:http://blog.sina.com.cn/s/blog_744a73490102vnxd.html

 

而通常的计量经济学的回归模型都是用来检测population average effect的。

 

用一点数学,会更加清晰

 

在截面数据的情形下,计量经济学模型几乎都是估计这样一个模型:

 

Y=a+bT+e (方程1

 

其中Y是结果(或者影响,假定可以取值是好转、没用、恶化),而T代表treatment,而且假定T取两个值0(没有接受treatment);1(接受了treatment)。

这个模型最重要的是那个b(通常说的beta coefficient,以及是否统计显著),而这永远都是相对于一个sample或者population来说的。

特别要提到的是,无论怎么增加控制变量,或者其他花哨的东西(比如,交叉项),核心都还是这个最简单的模型中的那个bbeta coefficient)。而你要做的是拒绝那个大家都习以为常的null hypothesis(即,TY没用影响)。

 

相反,如果你的数据是真正意义上的“RCT”实验数据,那么,你其实至少需要估计以下三个模型(在临床医学上,通常是三个,至少是两个)。【在社会科学中的田野实验中,几乎不可能有“安慰剂”这个部分(比如,给你假币)。因此,需要估计的模型可能通常只是两个模型。】 请特别注意这些模型中的标示。

 

Y2=a2+b2(T=2)+e:假定这个组是接受了真正的treatment(新的治疗药物;T=2)。

 

Y1=a1+b1(T=1)+e:假定这个组是接受了placebo treatment(安慰剂,且病人不知情。比如,生理盐水;也可以是既有的某种治疗,如果目标是表明新药比旧药好,T=1

 

Y0=a0+b0(T=0)+e:完全没有治疗(即,连安慰剂都没有)。

 

特别说明:在这三个统计估计模型里,Y2Y1Y0是比如生存率或者生命延长的时间(个体平均数),而我之所以把T2T1T0写进方程里,只是让大家觉得和方程1好像是非常像的。但其实,在后面的这三个方程中,T2T1T0是不变的(或已知的)。而一定意义上说,对这三个方程中的b0b1b2的估计,更像是估计一个残差(residual),而不是一个parameter(参数)。也就是说,在这里,我们关心的是,如果Y2Y1Y0有差别,不是因为病人本身的差别(比如,有的信教,有得过去经常锻炼,有的过去体弱多病等等),而确实是因为他们接受的treatment的不同所造成的!

 

在这里,你要拒绝的null hypothesis则是:Y2Y1或者Y0没有(显著的)区别【这也是因为你通过randomization,已经排除了它们之间的差别是因为病人之间本身的差别造成的】请注意,这时候,b2是否显著不是唯一重要的:即便b2显著(其实是说,b2作为一个残差,不等于0,但是只要Y2Y1或者 Y2Y0没有统计意义上的显著区别(这时候,可能通常都意味着,b1也是显著的,甚至b0也是显著的,但这不是最关键的!),那么即便b2显著也是毫无意义的。

 

而如果是严格意义上的(RCT)实验数据,那么这三个模型的估计都是直截了当的,而且不需要(甚至也不应该需要花哨的方法):因为randomization都是要达到那些无论怎么花哨的方法都永远达不到的估计可靠性。

 

但是,这个时候,如果按照通常的计量经济学的做法,则是把:三组结果放在一起回归,最后看那个总的bbeta coefficient)是否显著。【大家稍微想想就知道了,结果肯定是只要b0 b1 b2的其中一个,或最多两个是不等于0的,那最后的那个总的bbeta coefficient)就可能是显著的!但是,然并卵,因为你拒绝的null hypothesis是错误的!】

 

而目前绝大部分发表的实验方法的社会科学论文都用的是那个Y=a+bT+e的模型!而如果那个bbeta coefficient)显著了,多少作者们就想:“靠,我们太牛了,又是一篇AER或者APSR!” 同学们,看到了吧,这有多么的naïve呀!

 

【还要注意,Young其实没有点名任何一篇文章。我猜,他都不好意思说,这么多大佬,发在这么好的杂志,连基本的东西都没搞懂。而且,恐怕还有涉嫌修改数据等等。】

 

Allyn Young, 2015. Channelling Fisher: Randomization Tests and the Statistical Insignificance of Seemingly Significant Experimental Results, http://personal.lse.ac.uk/YoungA/ChannellingFisher.pdf

 

【特别提到,此前在Science杂志上的一篇文章表明,心理学的实验结果文章只有三分之一左右的结果是可以别重复出来的。同胞们,这是心理学,干脆就自认为自己是(自然)科学的学科呀! John Bohannon, 2015. “Many psychology papers fail replication test,” Science, 08/28/2015,  349 (6251): 910-911.

 

事实上,因为Young也只是从技术上批评实验社会科学的,他也没有指出实验社会科学最根本意义上的缺陷:以下的批评才是真正致命一击。

 

首先,我们都知道,在人群中进行的许多药物试验中的所谓的“RCTs”其实根本也不是严格意义上的“RCTs”。严格意义上的RCTs实验只能在小白鼠以下的动物或者植物上做(因为他们可以被大规模复制,而且有标准的动物模型,减少了许多可能的干扰因素或者机制)。我们甚至都没法对猴子做严格意义上的RCTs(因为猴子很贵,样本通常不够大,因此做不到真正的随机)。对人,在很多情形下,那RCTs就根本无从谈起(比如,人可以要求自己接受某个治疗,而这显然是自我选择,而且还有其他的因素加入)。其次,几乎可以肯定,社会科学中的“田野实验”都没有做到“双盲”,甚至“单盲”,更不要说是可以被重复的了。因此,这些文章的结果都是不可靠的,甚至不值得看。 【而鉴于这些实验(文章)的internal validity都不可靠,那它们的external validity就根本无从谈起!】

 

我的建议是:童鞋们,醒醒吧(包括Blattman)!实验方法不是给社会科学准备的。

 

“随机(田野)实验方法”的推动者们的目标是达到“randomized controlled Trials RCTs),的科学水平【RCT是药物试验的核心方法】。这其实是无视人类社会的基本性质:我们人有思想,即便能够被randomized,也无法在社会科学家想回答的问题中被全部controlledBhaskar 1979)。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有