[转载]辛普森悖论
(2022-03-30 13:50:42)
标签:
转载 |
@数学文化
推荐这个演讲
-------------------------------------------------------------------------------------------
辛普森悖论说的是这样一种情况,在比较甲,乙两组数据时,如果把甲乙分成一些小组,有可能出现甲在每个小组都比乙强,但整体上乙却比甲强的情况。
辛普森悖论在现实生活中最有名的例子是贝克莱性别歧视案。有人起诉贝克莱大学,说他们歧视妇女。说有数据显示他们学校男人录取率比女人录取率高。
后来校方给出数据,虽然从全校总数来看,男人录取率比女人高,但每个系里女人录取率都比男人高。为什么会出现这种情况呢?贝克莱的具体数字比较麻烦,我把它化简一下便于解释。
假设总共有20个女人和20个男人申请一个大学的教学工作。最后的结果是有15个男人,10个女人被录取了。显然,男人录取率75%,女人录取率50%,明显歧视。但是,当我们仔细看数据时发现:20个男人中有16个申请的是理工科系,有4个申请的是文史哲系。反之,女人中只有4个人申请理工科,16个申请的是文史哲。我们用下面的表格来总结
|
申请人数分类 |
录取人数分类 |
录取比例 |
总比例 |
|||
|
理工科 |
文史哲 |
理工科 |
文史哲 |
理工科 |
文史哲 |
|
男 |
16 |
4 |
14 |
1 |
87.5% |
25% |
75% |
女 |
4 |
16 |
4 |
6 |
100% |
37.5% |
50% |
从表格中可以看出,不论是理工科还是文史哲,女人录取率都比男人高,但总录取率却是男人比女人高。这个悖论数据的出现是因为文史哲的录取率比理工科低。理工科20个申请人里录取了18个,而文史哲僧多粥少,20个申请人里只录取了7个。而女人申请文史哲的人比较多。这相当于说两个班比较考试成绩,两份试卷,一难一易。甲班大部分都选容易的考,而乙班大部分都选难的考。最后的考试成绩不能用来说明乙班的改卷老师更苛刻。
当然,上面这些数据是简化过的,现实中没有20个人申请教职录取18个这样的好事。简单的数据比较好算,现实生活中的例子都比较复杂。好些科学论文就把谬误隐藏在复杂的数据中,我们懂了这里面的道理就不容易上当了。
说到底,辛普森悖论的产生是因为样本分布不均造成的。用数学语言来说就是:
从x1+y1
= x2+y2; a1 >
a2, b1 > b2
在x与y不均时,有可能比较的是a1
与 b2