解读“民调”(上 基础篇)
(2008-06-25 09:37:42)
标签:
美国大选奥巴马麦凯恩民调民意调查 |
分类: 观察日记 |
爱因斯坦(Albert Einstein)
总体和样本
样本的取得
取得一个好的样本是民调的关键,坏的样本则不能真实反应总体的状况,甚至产生误导的作用。比如,在宾州初选前夕的最后一场辩论后,MSNBC马上进行了一个网上调查:是希拉里还是奥巴马赢得了辩论。结果显示80%左右的投票者认为是奥巴马赢了。这里的样本可以说既是一种方便抽样,也可以算是自发回应性样本:这个样本的取得不需要费劲,只要等待人们浏览这个网页的时候就有机会获得,而浏览者是主动选择是否投票的。这两种类型都是坏的样本,不能真实地反映总体。
一个好的样本应该是利用机遇抽取的样本,即概率样本(probility sample)。最基本的一种方法就是简单随机抽样,得到的样本叫做简单随机样本(SRS, simple radon sample),一般通过两个步骤选取SRS,首先给总体中的每一个个体进行编码,然后利用随机数字来随机选取代码。另外,还有等距抽样、分层抽样、整群抽样和多阶段抽样等方法也可以获得概率样本,在相同的情况下,由这些方法得到的样本具有不同的代表性。
样本所提供的信息
样本是无法给出有关总体的精确信息的。例如,最近盖洛普作了一项民意调查,发现“52%的美国人预测奥巴马会成为总统”,这是对于2.2亿成年人这个总体所做的声明。但是盖洛普并不知道整个总体确实的情况,它只是访问了822位美国成年人,并得知其中52%的人认为奥巴马将会胜出。因为这个822的样本是随机抽取的,所以能合理假设它可以代表总体。盖洛普只是把“样本”中52%预测奥巴马会胜出这个“事实”,转换成“所有成年人”中约有52%预测奥巴马会胜出这个“估计值”(estimate)。全部美国成年人这个总体中究竟有多少人认为奥巴马会成为总统,这个数字称为“参数”(paraneter),是固定的数值,实际上我们无法知道。不过当我们取得了样本的时候就可以知道关于样本的“统计量”(statistic),用统计量来估计参数,统计量则不是固定的,如果样本变化了统计量的值也是会随之改变的。
误差界限与置信叙述
上面提到,既然统计量是会变化的,那么如果重新抽取一个822人的随机样本,几乎可以肯定不会恰好有同样数目的人预测奥巴马会成为总统,可能重新抽取的这个样本只有40%的人会这样认为。所以为了得到更可靠的结果,我们可以从同一个总体中选取多个样本,再进行比较。这时就可能出现以下两种情况:多个样本的统计量往同一个方向偏离总体的参数值(当然我们不知道实际的参数值是多少,这里是想表达这一可能情况);或者多次抽样的统计量并不接近,彼此间相差很大(即多次结果之间的离散程度)。前者称为“偏差”(bias),后者称为“变异性”(variabiblity),是对真实值进行估计时出现的两种误差。一个好的抽样方法,应该要是小偏差以及低变异性。只要做到随机抽样,就可以减低偏差;而只要样本足够大,就可以降低变异性。一般来说总体比样本大100倍以上即可。
民调报告中会用“误差界限”(margin of error)来描述抽样的变异性。如前所述,一个随机样本的结果不会刚好估计出总体的真正值,因此通常会用一个误差界限来表达估计值距离真正值有多远。如盖洛普关于52%的美国人预测奥巴马会成为总统的调查,给出的误差界限是正负4%,意思就是通过样本估计出的真正值会在52%加或减4个百分点(48%-56%)这个范围内。
细心的读者还会发现,在比较完整的民调报告末尾通常都会有这样一段叙述:在95%信心水平下误差范围正负3%。这一段话叫作“置信叙述”(confidence statement),它包含两个部分:误差界限及置信水平(level of confidence)。误差界限我们刚才解释过,就是样本的统计量离总体参数有多远,而置信水平则是要告诉我们,所有可能样本中有多少百分比满足这样的误差界限。虽然用了误差界限来表达估计值与真正值的可能差距,但是并不能百分之百确定这个差距必定在误差界限之内。一般而言,民调报告都会有95%的信心确定其结果,但仍会有5%的漏网之鱼。如果一些民调报告中没有提到置信水平,通常默认95%是比较普遍的做法。
抽样调查会遇到的实际问题
虽然随机抽样方法在选取样本时可以消除偏差,控制变异性,但是在真实世界中的抽样比这个更复杂。置信叙述并没有把真实抽样的所有误差来源都反映出来,只是包括了在选取样本时因机遇而造成的随机抽样误差(random sampling error)。大部分现实中的抽样调查都会遇到随机抽样误差以外的误差,或许使得置信叙述变得没有意义。
抽样调查会产生抽样误差(sampling error)和非抽样误差(nonsample error)。抽样误差是由于抽样这个动作造成的误差,随机抽样误差只是抽样误差中的一种,另一种是涵盖不全(undercoverage),就是在样本选取过程中,总体中的有些部分根本未必纳入选择范围。大部分民调都无力试图涵盖全美国成年人这样大的总体,他们的访问通常是利用电话的,因此可能会漏掉6%没装电话的人,在宿舍的学生、监狱里的犯人以及大部分军人都被排除在外,还有无家可归以及住在临时收容所的人。有时候因为电话费的原因,不包括阿拉斯加和夏威夷这两个州,或者只用英语访问,把某些移民家庭排除在外。但专业的民调机构会努力解决这些问题,并且电话调查是利用随机数字拨号系统,这样做的效果,等于是把所有住宅电话都纳入抽样范围了,因此抽样误差通常不大。
不过非抽样误差是怎么也无法逃避的。非抽样误差包括处理误差(processing error),是机械化操作时所犯的错误,随着电脑的普及这种误差少了很多。还有就是回应误差(response error),主要是受访对象给了不正确回答造成的,比如谎报年龄和收入,记忆错误,故意掩盖真实想法等。
无回应(nonresponse)是指无法得到已纳入样本中的个体的资料,常见的原因是联络不上或者对方拒绝回答。它是最严重的非抽样误差,没有简单的办法可以对付。无回应会使调查结果有偏差,不同的人群会有不同的回应率,老人和大城市居民的拒答率就比较高,无回应造成的偏差很容易造成超出随机抽样误差的范围。
那么,无回应是不是就使得民调没有意义了呢?也不是,但这些就是统计学家的工作了。比如,所有专业调查机构都会用特殊的统计方法来给回应进行加权,以期导正偏差来源,但这也会增加变异性,在宣布误差界限之前都必须把这些考虑进去。另外,提问的方式也会对结果有影响。
现实中的民意调查
抽样的基本概念很清楚:从总体中抽一个SRS,用一个从这个样本得来的统计量,估计某个总体的参数。但我们也知道存在非抽样误差,为了做出补救,统计学家会在样本统计量背后“动手脚”,设计出比SRS更复杂的抽样设计。
其中最重要的就是分层抽样(stratified sampling)的方法。它优于SRS的地方在于:首先,我们可以决定在每层里面样本的数量,在每层里面抽取SRS,因此可以得到有关各层个别信息;其次,分层抽样的误差界限通常会比同样大小的SRS要小,因为同一层个体之间的相似程度比整个总体的个体要大,有助于消除样本的某些变异性。但这样做可能违反了随机性,因为有些层在样本中的比例可能会被刻意提高,这里也是需要统计学家工作的地方。
举个例子,假设民调机构希望了解奥巴马与麦凯恩在全美国合资格选民中的支持率,但同时它也希望比较精确估计其中不同地区选民的意见,他们就可能会选择分层抽样。首先按美国各地区人口比例通过电话区号抽取分层样本,然后在每个抽中的代表地区的前码中按最后4位随机拨号。我们可以知道,大部分全国性的样本都会比SRS复杂。
以下是皮尤研究中心对民意调查机构过程细节的描述:
大部分民意调查是利用电话进行的,方法是用随机拨号的方式来取得住宅的随机样本,在剔出传真机号码以及公司营及后的号码之后,就开始打电话。为了获得1000人的样本,实际上要打的电话取要比这多得多。
从来没人接电话
相信调查结果之前该问的问题
参考书目:《统计学的世界》(Statistics: concepts and controversies),[美]戴维·S·穆尔(David S. Moore)著