加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

程阳:统计学中的辛普森悖论如何解释?

(2019-02-15 17:12:38)
标签:

杂谈

分类: 情资阅览
程阳:统计学中的辛普森悖论如何解释?程阳:统计学中的辛普森悖论如何解释?

先看一个斯坦福大学课程的案例:某大学历史系和地理系招生,共有13男13女报名。历史系5男报名录取1男,8女报名录取2女。地理系8男报名录取6男,5女报名录取4女。

.

历史系录取率:1/5(男) < 2/8 (女)

地理系录取率:6/8(男) < 4/5 (女)

但是合计录取率:7/13(男)> 6/13 (女)

.

上面的录取率数据真的令人困惑:历史系的录取率是女生高,地理系的录取率也是女生高。但是,合计的录取率却是男生高!这到底是怎么回事?

.

这类现象并非个别,而是一种普遍存在,这种现象就是所谓的“辛普森悖论” Simpson's paradox :当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。该现象于1900年代初就引发关注,但一直到1951年,E.H.辛普森在他发表的论文中阐述此一现象后,该现象才算正式被描述解释。后来就以他的名字命名此悖论,即辛普森悖论。

.

程阳:统计学中的辛普森悖论如何解释?

为了增加直观的感受,再看一个案例:假没匹兹堡大学只有法学院和商学院两个学院,两个学院都是女生录取率比男生高——

程阳:统计学中的辛普森悖论如何解释?

据以上数据,能得出“这个大学女生更容易被录取”的结论吗?当然不能!事实上是“男生更容易被录取”,下面为证;

程阳:统计学中的辛普森悖论如何解释?

程阳:统计学中的辛普森悖论如何解释?

为了直观解释辛普森悖论这个现象,我们看一个男女生两次投篮的数据:第一次比赛,男生命中率0%(都是红圈),女生命中率高于男生。第二次比赛,女生命中率100%(都是绿圈),女生命中率还是高于男生。但把两次比赛结果加起来就得到相反的结果:男生命中率高于女生。

程阳:统计学中的辛普森悖论如何解释?

程阳:统计学中的辛普森悖论如何解释?

下图二次合并

程阳:统计学中的辛普森悖论如何解释?

程阳:统计学中的辛普森悖论如何解释?

把第一次比赛、第二次比赛、两次比赛之和放到一张图里就可以看出问题所在,那就是:“少量的胜负只是偶然,大量的胜负才是必然”。

.

先看少量胜负:第一次投篮男生属于偶然失败,第二次投篮女生属于偶然胜利,因为投篮的数量很少,胜负并不能说明真实水平。

.

再看大量胜负:显然第二次男生真实水平很高,而第一次女生的真实水平一般。

.

但是合计的数据样本是大量的,已经大幅度降低了偶然性的因素,真实性的水平是必然因素当然显现。

.

回到前面的两个案例:斯坦福案例中,8个人的大样本中男生以6人录取多于女生2人;匹茲堡商学院251大样本中男生,优于法学院大样本152女生录取率。看大局、看重点,小样本胜负无关大局。

程阳:统计学中的辛普森悖论如何解释?

辛普森悖论所揭示的其实是人生最简单的道理:人生漫漫胜负不要计较偶然,最终决定人生胜负的是漫长的必然;人生的饭局不要在乎一口吃的多少,而要在乎谁吃的足够时间长。还是那句大白话,“是金子始终会发光”。

.

枯燥的统计学,可以这么熬成一锅心灵鸡汤,也是十分美味和醉人的。

.

程阳:统计学中的辛普森悖论如何解释?

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有