加载中…
个人资料
拾史释世拭视时势
拾史释世拭视时势
  • 博客等级:
  • 博客积分:0
  • 博客访问:6,872
  • 关注人气:6
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

从人口统计中看数据

(2014-11-21 20:52:25)
标签:

数据分析

数据科学

也许,推崇大数据就得批判抽样。那么,在人口统计问题中就先看看抽样问题。多年来,我国每年都做人口抽样调查工作。一般是选取人口总数的千分之一左右做为抽样调查一番。这一工作肯定会有误差,看到天津的一份说明描述,他们的误差大概不到千分之0.5。那么实际效果如何?

 

1)  抽样误差可能有多大?

前些日子,许多人非常关注婴儿比例失调问题,有的人认为这会给社会带来潜在的问题。为了了解婴儿性别比例失调的问题,并验证这一数字的准确性,我们分别从2012年(这是当前能得到的最近的数字),2007年年龄数字分布中找到数据:

 

2012年 抽样比为 0.831‰
     人口数
(人)
    占总人口
比重 (%)
    性别比
(女=100)
               
总计 1124661 576354 548307 100.00 51.25 48.75 105.12
0-4 63981 34694 29287 5.69 3.08 2.60 118.46
5-9 61309 33252 28057 5.45 2.96 2.49 118.52
10-14 59845 32370 27475 5.32 2.88 2.44 117.82
2007年 抽样比为 0.900‰
     人口数
(人)
    占总人口
比重 (%)
    性别比
(女=100)
               
总计 1188739 602740 585999 100.00 50.70 49.30 102.86
0-4 59996 33163 26833 5.05 2.79 2.26 123.59
5-9 68202 37275 30927 5.74 3.14 2.60 120.53

 

显然,2007年0-4岁人群,对应着2012年的5-9岁人群。2007年0-4岁组人群男女比为123.59%,但到了2012年对应的5-9岁组人群男女比为118.46%。这里可能有二个人们议论的因素:(1)男婴死亡率高,这也许是从以前的成人比例推断出来的。事实上世界其它各国的婴儿确实是男婴死亡率高一些,但国家统计局的报告中说明中国确实存在中国特有的"女婴死亡率高于男婴的现象",所以这一因素只属于猜测;(2)女婴瞒报问题,这是无法直接证实的命题。若证明只能证明存在瞒报而不能证明不存在瞒报。而提出者拿不证据,或者说用举例的方法只能证明男婴女婴都有瞒报,所以这种说法也一时站不住。另外交叉比较结果也说明,瞒报若有也是双方面的(不存在大量瞒报女婴的问题)。那么,我们还只能说,抽样数字本身误差也较大。

从人口统计中看数据
我们再把这数字回推到总人口数字上面。若抽样数字代表性很强的话,2007年0-4岁组男婴总数大约应为
33163/千分之0.9 = 3684.7万人,而对应的2012年5-9岁组男孩总数为33252/千分之0.831 = 4001.4万人。抽样数据有误差可以理解,但这样的误差就没法比较了。人数多出来不少。二次抽样误差与调查误差加在一起至少有(4001-3684)/3684 = 8.6% (0.086),这与人口调查的误差目标大概要差不少吧。所以,抽样误差有可能会很大。

但上述的误差值,是抽样误差与统计(调查)误差混在一起的。我们还得看看,统计误差是否会很大(逻辑上我们只能这样说,因为我们只能通过找到错的方式证明这过程有错,而无法证明没错)。

 

 2)统计数字中的问题

如果抽样调查可能有挺大的误差,那么我们就可能会更多地依赖全国人口统计调查的数字(这个不是抽样而是普查)。全国人口普查最近二次分别是2000年和2010年,我们查看一下这二年的数字:

2000年
年龄组 人口数(人)     占总人口数的百分比(%)     性别比
(女=100)
0-4岁 68978374 37648694 31329680 5.55 3.03 2.52 120.17
5-9岁 90152587 48303208 41849379 7.26 3.89 3.37 115.42
2010年
      占总人口比重 性别比
合计 合计 (女=100)
0-4岁 75532610 41062566 34470044 5.67 3.08 2.59 119.13
5-9岁 70881549 38464665 32416884 5.32 2.89 2.43 118.66
10-14岁 74908462 40267277 34641185 5.62 3.02 2.60 116.24
15-19岁 99889114 51904830 47984284 7.49 3.89 3.60 108.17

我们可以发现,十年后,性别比有了下降。这可能是件好事。但我们奇怪地发现,2000年和2010年的数字结构上与2007和2012年的抽样调查一致,都是对应年龄组的总人数反而有了增加。这反而证实了抽样方法的一致性。

我们还以男婴为例,2000年0-4组男婴人数为37648694,而对应的2010年10-14岁组的男孩人数为40267277。类似的,2000年5-9岁组男孩人数为48303208,而对应的2010年15-19岁组的男孩人数为51904830。这不是婴儿瞒报的问题,只说明了统计方式有漏洞。

所以说,统计过程中的数字误差并不是依靠用(普查)大数据替代抽样调查就可以解决的。记得有位参与人口抽样调查的统计学家说,抽样调查是科学和有说服力的。从数据对比来看,那位专家说得挺有根据,但抽样与普查的一致性不等于统计过程没有问题。

 

3)合理的角度

随着互联网技术的普及,现有的统计方式也有可能大大改变。但过去的数据改变不了。我们相信,即使如地震数据等许多通过自动化技术采取的数据也还是会有许多问题。我们只能分析其中的结构性缺陷,利用互相校对的机制来调整数据了。

数据是对事物某个角度的描述。越是复杂的事物,我们越难以全面地描述清楚。“知人知面难知心”。所以说,完美的数据几乎没有,即使存在着完美的过程。但任一角度的数据都有可能让我们看到新的世界的一面。

比如,我们国家,或者整个世界,人们的平均寿命都在增加,这样我们就会认为人口死亡率也应该逐年降低,因为死亡率与寿命似乎是反相关的。但数字与我们的想像正好相反。

 

  2000 2002 2004 2006 2008 2010
死亡率 6.41 6.42 6.81 7.06 7.11 7.15

              (千分率)

 

另外这十年来,  汽车产量每年都增加百分之几十,只有今年才跑到十位数下面了,交通事故发生率因之也不断增加,我国也因此担上车祸大国之名。那么,我们大多数人也会认为交通事故死亡人数也会急剧增加。

  2000 2002 2004 2006 2008 2010
死亡人数 93,853 109,381 107,077 89,455 73,484 65,225

    (交通事故死亡人数统计)    

  

车堵了车速就降低了?现在是车越多死的人数越少了。 

上述二个例子,说明人们可能有许多心理上的误区。世界在变,数字的形态也会变。

 

这些数据都在告诉我们,数据问题确实不简单。

 

(本文所有有关人口数据均来自于国家统计局网站)

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有