标签:
杂谈 |
分类: 情资阅览 |
先看一个斯坦福大学课程的案例:某大学历史系和地理系招生,共有13男13女报名。历史系5男报名录取1男,8女报名录取2女。地理系8男报名录取6男,5女报名录取4女。
.
历史系录取率:1/5(男) < 2/8 (女)
地理系录取率:6/8(男) < 4/5 (女)
但是合计录取率:7/13(男)> 6/13 (女)
.
上面的录取率数据真的令人困惑:历史系的录取率是女生高,地理系的录取率也是女生高。但是,合计的录取率却是男生高!这到底是怎么回事?
.
这类现象并非个别,而是一种普遍存在,这种现象就是所谓的“辛普森悖论” Simpson's paradox :当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。该现象于1900年代初就引发关注,但一直到1951年,E.H.辛普森在他发表的论文中阐述此一现象后,该现象才算正式被描述解释。后来就以他的名字命名此悖论,即辛普森悖论。
.
为了增加直观的感受,再看一个案例:假没匹兹堡大学只有法学院和商学院两个学院,两个学院都是女生录取率比男生高——
据以上数据,能得出“这个大学女生更容易被录取”的结论吗?当然不能!事实上是“男生更容易被录取”,下面为证;
为了直观解释辛普森悖论这个现象,我们看一个男女生两次投篮的数据:第一次比赛,男生命中率0%(都是红圈),女生命中率高于男生。第二次比赛,女生命中率100%(都是绿圈),女生命中率还是高于男生。但把两次比赛结果加起来就得到相反的结果:男生命中率高于女生。
下图二次合并
把第一次比赛、第二次比赛、两次比赛之和放到一张图里就可以看出问题所在,那就是:“少量的胜负只是偶然,大量的胜负才是必然”。
.
先看少量胜负:第一次投篮男生属于偶然失败,第二次投篮女生属于偶然胜利,因为投篮的数量很少,胜负并不能说明真实水平。
.
再看大量胜负:显然第二次男生真实水平很高,而第一次女生的真实水平一般。
.
但是合计的数据样本是大量的,已经大幅度降低了偶然性的因素,真实性的水平是必然因素当然显现。
.
回到前面的两个案例:斯坦福案例中,8个人的大样本中男生以6人录取多于女生2人;匹茲堡商学院251大样本中男生,优于法学院大样本152女生录取率。看大局、看重点,小样本胜负无关大局。
辛普森悖论所揭示的其实是人生最简单的道理:人生漫漫胜负不要计较偶然,最终决定人生胜负的是漫长的必然;人生的饭局不要在乎一口吃的多少,而要在乎谁吃的足够时间长。还是那句大白话,“是金子始终会发光”。
.
枯燥的统计学,可以这么熬成一锅心灵鸡汤,也是十分美味和醉人的。
.

加载中…