相关性VS因果性

分类: 认识论及方法思维 |
大数据文摘授权转载
编译|姚佳灵 校对|康欣
在新闻分析领域,人们常常混淆因果性和相关性,他们倾向于互换使用这两个词,却不知道二者有着本质的逻辑区别。显然,人们被这两个词的(Causation and Correlation)发音所迷惑,有时候将它们用在错误的地方。实际上,除了发音相似,这两个词并没有很多相同之处。事实上,它们的内涵相去甚远!
下面,让我们通过一些例子,来理解因果性和相关性之间的区别。分析下面这些场景,请回答在两个事件X和Y之间是否有因果关系。答案在后面。
例1:X( 学生被录取的学院的级别)=> Y (毕业后的收入)
假设:精英商学院学生的收入比平均水平高。这些商学院是获得更好工作的原因吗?
http://mmbiz.qpic.cn/mmbiz/HqfpVqW3IdxOxjne0Rpbf83RZa7v5YHPyyK9aIDJsaaw27jX0IryicIDLgc3dhpLhTITeWSX21wm0ic6qdA2nfvg/0?wx_fmt=png" TITLE="相关性VS因果性
例2: X (抽烟)=> Y(精神压力水平)
假设:抽烟的人被发现精神压力更大。抽烟是导致压力的原因吗?
http://mmbiz.qpic.cn/mmbiz/HqfpVqW3IdxOxjne0Rpbf83RZa7v5YHPUIECfmwkNbBicO8CtbicyvvvdPPVYUiaII9ZeaGMsmovpTNicqejmSjF6g/0?wx_fmt=png" TITLE="相关性VS因果性
例3:X(有孩子)=> Y (成熟度)
假设:人们在有了孩子后更成熟?有孩子是成熟度更高的原因吗?
http://mmbiz.qpic.cn/mmbiz/HqfpVqW3IdxOxjne0Rpbf83RZa7v5YHPp4khXnNuC5rhAG4m8SJpQ1egGYLpnNEwcdB1YOiapXS7YSp9usk1icGg/0?wx_fmt=png" TITLE="相关性VS因果性
例4: X (海拔)=> Y(温度)
假设:我们观测到海拔较高时,温度较低。这意味着,海拔越高就越冷。那么,更高的海拔是导致更低温度的原因么?
http://mmbiz.qpic.cn/mmbiz/HqfpVqW3IdxOxjne0Rpbf83RZa7v5YHPgJUZ8PTqJ5oxbZa63VuhJ6Fs5Yqp8XPvyAymfN5iaJDnQ26fJDjcoPA/0?wx_fmt=png" TITLE="相关性VS因果性
希望上面的例子会触发你的学习欲望,并且让你兴奋地想多学一点。尽管这不是一个刚被发现的话题,但是人们仍没有准确掌握使用这些术语。因此,我试图用最简单的方式来解释因果性和相关性的各个方面。
本文中,我将解释因果性和相关性之间的区别,以及如何识别因果关系。如果你想在分析行业有扎实的基础,理解这个概念是非常必要的,而目前分析就像在一些黑匣子上工作。这些技术(因果性和相关性)不只是局限于分析行业,它们的应用遍及所有的行业。
首先,让我们一起来看看上述问题的答案:
例1:不存在因果性。比如,只有那些被精英商学院被选中、且雄心勃勃聪明人,后来才获得比平均水平高的收入,亦即存在选择性偏误。换句话说,就算这些学生没有在那些精英商学院学习,他们仍有可能得到比平均水平高的收入。于是,在这种情况下,我们有可替代的推理。
例2:不存在因果性。我们可以基于反向因果性来推翻假设。比如,较大的精神压力事实上能让一个人去抽烟。
例3:不存在因果性。再一次地,我们可以基于反向因果性来推翻假设。比如,只有成熟的人可能准备好了要生孩子。我们也可以用年龄作为潜在的原因来替代。更大的年龄导致想生孩子和更成熟。
例4:存在因果性 。在这里,反向果性是不可能存在的。可替代的原因或相互独立的关系也是不存在的。
结论:如果你能正确地回答这所有的4个问题,你可以进入下一个概念了。假如你做错了任何一题,你也许需要在因果性问题上多加练习。
什么是建立因果关系的关键点?
建立因果关系的关键点对(X = > Y)是:
1、可替换推理(Alternate Reasoning):若存在一个可替换的原因(Z),Z确实对X和Y都有影响,即Z => X和Z => Y为真,就那么可以推翻假设X => Y。
2、反向因果(Inverse Causality):如果可以用Y影响X来替换X影响Y,那么可以根据反向因果来推翻假设X => Y。
3、相互独立(Mutual independence):有时候X和Y也许是“被相关”,而再无其它联系。在这样的情况下,根据相互独立性可以推翻假设。
我们如何能确定得到因果性?
在类似制药领域中,建立因果关系是非常重要的。这正是制药领域要完成足够多的研究来找到因果关系。在开始数学推导前,要理解下面的一些定义。
1、随机实验数据(Randomized Experimental data):一种实验通常被定义成在不同条件下随机分配观测单元,条件随着对观测单元的处理而不同。“处理”(treatment)是一个通用的术语,在医疗应用中最容易翻译(例如,不同情况对病患得到不同的治疗),但是它也适用于其它领域。
2、观测数据(Observational data):如果没有太多的钱做随机测试,就不得不在已有数据资源上下功夫。在不受控的情况下,这样的事件已经发生了。因此,选择并不是随机的。
由观测数据推导出因果关系是非常困难的,且不具有结论性。在因果关系上要获得具有结论性的结果,需要做随机实验。
为什么观测数据不具有结论性?
1、观测数据不具有结论性,是因为观测数据不是随机选择的。我们永远无法从单个的因果对上得出结论。
2、例如,如果大量从精英商学院毕业的学生获得更高收入;这不能推出因果性,因为选择是基于最初的表现。
3、无论如何,如果随机从精英商学院中选取学生,这个分析将会在建立因果性上更具有一般性。
为什么不是每一次都进行随机实验来建立因果性?
你将会因为多种原因被要求利用观测数据而不是实验数据工作。
第一个原因是,做实验需要资金。例如,如果你的假设是给消费者免费的iPhone,这个活动会对苹果公司的销售带来增量收益。在不知道任何因果关系时,做这个实验当然是个耗资巨大的提议。
第二个原因是,不是所有的实验在道德上都是被允许的。例如,如果想知道抽烟是否对精神压力产生影响,需要让正常人抽烟,而这从道德上来说是不被允许的。
在那种情况下,如何利用观测数据建立因果性?
在这一具体问题上,已经完成了大量的研究。这些方法的整体目标,是消除任何未观测到变量的影响。下面,将介绍一些众所周知的技术:
一、面板模型(Panel Model):若至少在一个维度上,不可观测到的其他维度是不变的,那么用这个方法就非常方便。例如,如果在时间纬度上,不可观测到的其他维度是不变的,那么就可以试着建立一个面板模型,从不可观测到的维度上分离出偏差。比如,以商学院=>高收入为例子,假设不可观测到的维度不随着时间而改变。
来试试这个方法。
1、下面是个Y(收入)的回归方程,以精英商学院(下标T)和不可观测到的维度(下标U)为变量
http://mmbiz.qpic.cn/mmbiz/HqfpVqW3IdxOxjne0Rpbf83RZa7v5YHPjiabQbXGGu6oKQ9FwgOKpNNTt0Vo5ZTXKXOmptJat1z2OdZbmR8Vycg/0?wx_fmt=jpeg" TITLE="相关性VS因果性
2、但是,因为不可观测到的维度不随着时间而改变,可以将方程简化如下:
http://mmbiz.qpic.cn/mmbiz/HqfpVqW3IdxOxjne0Rpbf83RZa7v5YHPlMSKA2WkS2HxvicaictgwNOoUTcribvJmzqFs0G2ADIp8xuXXJr41TGHw/0?wx_fmt=jpeg" TITLE="相关性VS因果性
3、现在,可以通过随着时间产生的差别来消除不可观测到因素
http://mmbiz.qpic.cn/mmbiz/HqfpVqW3IdxOxjne0Rpbf83RZa7v5YHPsuVNz5NmqCSmicXc4J5GNJkRwF3q5ibVv5zMUPPNyGgP3bulLjD36jbA/0?wx_fmt=jpeg" TITLE="相关性VS因果性
现在,问题是在商学院和收入之间找到因果性的确切系数。
二、仿真控制(Simulated Control):观测数据最大的问题是在同一个数据点,无法同时获取得到处理和未经处理的数据。比如,在前面提到的抽烟例子里, 一个人不能同时既是抽烟者又是不抽烟者。
但是,如果可以为处理数据找到其在未经处理时相似数据,然后在相似数据中对比分析,从而得到处理效应。这是在如今的行业中应用最普遍的方法。
这种相似性可以在近邻算法、k-d树或其它算法中找到。打个比方,两个人,他们年龄一样,性别一样,收入一样等等。其中一人开始抽烟,另一人则不抽烟。现在,如果其它条件没有变化,那么可以在一段时间内比较他们的压力水平。
http://mmbiz.qpic.cn/mmbiz/HqfpVqW3IdxOxjne0Rpbf83RZa7v5YHPsuSYR2mDeP9SVLy1y53ssN8TC9vBUIWPw7HygVB8ynwqpV2o6bMINg/0?wx_fmt=jpeg" TITLE="相关性VS因果性
从理论上讲,这个方法听起来让人非常兴奋,它通常是难以创建反事实数据,有时它能产生也许不正确的结论。这事实上是将来另外一篇不同文章的主题。
三、工具变量(Instrumental Variable):这或许是最难实施的。下面是实施这技术的步骤:
1、找到因果对。
2、找到跟原因有关的属性,但它跟通过回归模型获得的残差无关。这个变量就是已知的工具变量(IV)。
3、现在利用工具变量(IV)估计原因变量。
4、通过回归模型来找到因果关系的实际参数。
http://mmbiz.qpic.cn/mmbiz/HqfpVqW3IdxOxjne0Rpbf83RZa7v5YHPdyuicwibkr27cSPibUiaY3KhOLtoYNib6tUIntyctdoeastTeIea1Iobw0w/0?wx_fmt=png" TITLE="相关性VS因果性
到目前为止,我们完成了什么?
利用观测数据,使用任何回归技术探究因果关系均会有偏差。比如,在抽烟——精神压力关系中,我们也许认为会被反向因果所影响。
现在,如果可以找到和卷烟消费量相关,而不和精神压力有关的信息,也许能找到真正的关系。通常,工具变量(IV)是基于消费调整的变量。比如,我们发现税收管理只提高了卷烟的价格,导致整个模型里的卷烟消费量下降。现在可以试试按上面提到的4个步骤来找找抽烟——精神压力因果关系。
4. 不连续性回归设计(RD):这是我最喜爱的选择。它使得观测数据真正接近实验设计。
在下图中,我们发现一个维度,其上有一个峰值,该峰值位于处理和未经处理的群体边界上。假设,我们想测试在课程结束时,奖学金对大学生成绩的影响。注意,奖学金是提供给在入学考试中得分在80分以上的学生。但问题就在这里:因为这些学生已经很聪明,未来他们也许继续保持顶尖水平。因此,这是一个难以验证的因果关系。
http://mmbiz.qpic.cn/mmbiz/HqfpVqW3IdxOxjne0Rpbf83RZa7v5YHPBgDRxyUjzfb5AXd6jevTbVeOIJGkC9lKKua2h1DvwvabztfXMTWTibw/0?wx_fmt=png" TITLE="相关性VS因果性
/mpres/htmledition/ueditor/themes/default/images/spacer.gif" TITLE="相关性VS因果性
但是,如果把成绩刚刚在80分以下(比如说79.9分)的学生和成绩刚刚在80分之上(比如说80.1分)的学生在学期结束时的成绩做一比较。假设那些得分为79.9的学生和得分为80.1的学生不会有很大的差别,只有奖学金的作用可以改变。这就是所谓的准随机选择。
因此,这样设计得到的结果会很接近真实的因果性结论。使用这种方式的唯一挑战在于找到一个在处理和未经处理的群体之间进行划分的维度是比较难的。
结束语
在分析领域中,建立因果性也许是最难的任务。得到错误因果性的概率异常高。本文章讨论的关键概念将较好地帮助你解决因果性问题。
就以这些幽默的话题结束这篇文章吧。这里有些图片显示了相关性和因果性的不同。
http://mmbiz.qpic.cn/mmbiz/HqfpVqW3IdxOxjne0Rpbf83RZa7v5YHPquYFDiaYVP0GiaIZ7TNlrjA9UNJYMJhiamGQpYAGH5PKGd1RDl90GaQvQ/0?wx_fmt=jpeg" TITLE="相关性VS因果性
附:虚假的相关性。
http://mmbiz.qpic.cn/mmbiz/HqfpVqW3IdxOxjne0Rpbf83RZa7v5YHPvmLA44T9vBicibKfZGTicFPJX4OiaQwU9IObvIWJiawl3WoSZgYMTSh7fJA/0?wx_fmt=jpeg" TITLE="相关性VS因果性