基尼系数计算公式及推导

标签:
转杂谈 |
分类: 信息、资料 |
叶檀:论证国家统计局基尼系数
2013年01月21日
中国贫富差差距并不像想像的那么大,可能也不像官方公布的那么小。
在2004年之后,基尼系数达到0.465后,国家统计局不再公布该数据,被嘲笑为贫富差距过大不好意思公布。2013年1月18日,国家统计局补上了这一课,从2003年至2012年全国居民收入基尼系数分别为:2003年是0.479,2004年是0.473,2005年0.485,2006年0.487,2007年0.484,2008年0.491。然后逐步回落,2009年0.490,2010年0.481,2011年0.477,2012年0.474。
虽然基尼系数仍然较高,但仍然取得很大成果:连续四年基尼系数回落、低收入阶层收入上升是一大幸事;八年不公布系数的空窗期,基尼系数仍在0.4到0.5之间徘徊,贫富差距没有正常化,是第二件幸事。最重要的是,统计局居然开始公布敏感数据了,而不是像地方房地产价格一样消失于无形,或者弄个指数来忽悠。
统计局的数据照例受到质疑。去年12月9日,西南财经大学公布中国家庭金融调查结果显示,2010年中国家庭的基尼系数为0.61,城镇家庭内部的基尼系数为0.56,农村家庭内部的基尼系数为0.60。东部地区基尼系数为0.59,中部地区的基尼系数为0.57,而西部地区的基尼系数为0.55。与国家统计局公布的数据相隔悬殊。
孰是孰非?国家统计局局长马建堂先生认为,无论官方统计还是民间调查,都需要建立科学的统计制度,规范的抽样方法,适量的、妥当的样本数目,以及严谨的发布态度。马建堂先生说了一句正确的话,却没有落实于行动,我们没有看到国家统计局的样本口径、权重等具体资料。
根据有限的材料来看,国家统计局最大的可能性是低估了高收入人群的灰色收入,这将直接降低基尼系数。而西南财大有可能低估了低收入人群的收入。
为了论述方便,做个简单模型,以100人的群体与房产收入为例。假定某个群体共一百人,如果最穷的50人拥有5套房产;次穷一族拥有5套房产,也即中等以下收入人群共拥有10套房产,中等以上收入人群共25人,拥有10套房产。按比例来说,50%及以下人口拥有25%财富;75%以下的拥有50%财富,(100%以下当然拥有100%财富)。此例基尼系数为0.3125。
再假设,如果最高收入群体实际拥有20套房产,按比例来说,依收入,50%以下的拥有1/6财富;75%以下的拥有1/3财富;上层拥有2/3财富。【最穷50人5套房、次穷25人5套、最高收入25人20套房】此例基尼系数为0.4583。如果最高收入阶层实际拥有30套房产【最高收入25人30套房】,50%以下的拥有1/8财富;75%以下的拥有1/4财富了;上层拥有3/4财富。此例基尼系数为0.5313。
可见,如果高收入阶层漏报财产或者瞒报财产,会使基尼系数发生巨大变化。如果我们把这种假定分析集中到最富的百分之五或百分之一,这一变化将更醒目,在社会上直接反应,就是这样的数据违背常识。灰色收入、隐性收入、隐瞒财富正是收入调查中最困难的部分。2010年,王小鲁先生与国家统计局的一场论战,王小鲁在题为《灰色收入与国民收入分配》的研究报告中,认为2008年全国城乡居民的隐性收入高达9.26万亿元,其中定义为灰色收入的部分为5.4万亿元。国家统计局某些人认为高估,但承认在收入中有漏报部分。由于无法掌握高收入阶层的总资产,基尼系数只能毛估估,看个大概。
西南财大的调查则是基于全国320个社区和村庄,对8438户家庭进行的入户调查,调查内容包括住房资产、金融财富、收入消费等方面。已经有文章指出,西南财大的报告低估了低收入人口的数据,中国家庭金融调查与研究中心在一份英文资料中给出了城镇有25%的居民家庭年收入在6420元以下,农村有25%的居民家庭年收入在4294元以下的计算结果。有人指出,这一结果意味着,"在2010年,中国城镇居民家庭四户中有一户的人均月收入在200元以下,即每天约为6元以下,农村中四户中有一户的人均月收入在100元以下,即每天3元钱以下。这意味着中国有四分之一家庭濒于或正处于饥饿状态中。"这种极端现象不现实,因此,课题组在计算基尼系数时,"将收入小于0的家庭去掉,同时去除最高和最低收入的1%的家庭。"
统计数据会说谎,最差的情况是统计数据变成政治数据,较差的情况是统计数据变成质疑数据,好的数据是经济科学的基石。国家统计局的基尼系数未必准确,西南财大的数据同样存在疑问,我们还不能知道真正的贫富差距多大,只能得出较模糊的结论,差距比较大,这两年没有再扩大。不满意?相对认真的数字总比没数字好。(每日经济新闻
------------------------------------------
-----------------------------------------
基尼系数
基尼系数(Gini
一)洛伦茨曲线与基尼系数的基本概念
洛伦茨曲线(Lorenz
(1)将一定地区(如一个国家、一个省、一个县等)内的全部调查人口按收入由低到高顺序排队,并按人数相等的原则平均分为若干组。
一般比较常见的是,将全部调查人口分为5组,每组人口占总人口的20%。
(2)分别计算每一组人口总收入占全部人口总收入的百分比。
假定经过调查计算,每组人口收入占全部人口总收入的比重依次分别为4%、6%、11%、17%、62%。
(3)按收入由低到高的顺序,计算从第1组直到第i组的累计人口总收入占全部人口总收入的百分比。
仍以上述假定数据为例,计算结果:累计到第1组人口总收入占全部人口总收入的比重为4%,累计到第2组人口总收入占全部人口总收入的比重为10%,累计到第3组人口总收入占全部人口总收入的比重为21%,累计到第4组人口总收入占全部人口总收入的比重为38%。
(4)以各组累计人口百分比为横轴,累计收入百分比为纵轴,作出表示直到每一组的累计人口总收入占全部人口总收入的百分比随累计人口百分比变化而变化的曲线,这就是洛伦茨曲线。
上述洛伦茨曲线,只能粗略地大概地反映社会收入分配不平等程度。为了能够定量地精确反映社会收入分配不平等程度,意大利统计学家基尼(Corrado
G=
(二)关于既有基尼系数计算公式的商榷
上式中,G代表基尼系数,Yi代表第i组人口总收入占全部人口总收入的比例,Pi代表第i组人口数占全部人口总数的比重,(ΣPi)′表示累计到第i组的人口总数占全部人口总数的比重。
臧日宏《经济学》只介绍了这一基尼系数计算公式及其计算步骤,而未介绍推导过程。
-----------------------------------------------------------------------------
推介一个新的简便易用的基尼系数计算公式
笔者作了独立探索和简化。结果如下:
计算B的面积。
其中,i从1到n-1
[由图中可见,用一个个小梯形相加近似代替B面积,结果偏高。而B在分母上,则基尼系数算出来偏低。n设的越多,误差越小。]
最后,再将上述推导结果代入基尼系数定义式,进行推导
即得一个简便易学易用的★基尼系数计算公式(看下面写的理解):
其中Wi表示从第1组累计到第i组的人口总收入占全部人口总收入的百分比。
【理解:B
上面推导,第3个等于号后,分子部分后2项为-B
-1/2
先看这部分:Σ(Wi-1
所以整理得:
其中i=n.
上面推导的简式很不错,但表达有问题,幸亏没有影响计算结果(没有直接用B的结果)。求和中Wi应写成Wi-1,Σ则从i=1到i=n
Wn-1.
(四)应用举例
为了帮助读者确切地掌握上述公式的使用方法,现以本文前述假想数据为例,作一示范。
G=1-1/5
若使用前述臧日宏《经济学》书中介绍的公式计算,则为:
G=1+(20%×4%+20%×6%+20%×11%+20%×17%+20%×62%)
-2(20%×4%+40%×6%+60%×11%+80%×17%+100%×62%)
=-0.508
取其绝对值,与使用本文推介的简便公式计算结果完全一样。但两种方法在理论推导思路的简捷,公式本身的易学易记易用方面,孰优孰劣,显而易见。