加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

统计意义上的因果关系(整理)

(2007-06-26 19:12:45)
    从统计的角度,因果关系是通过概率或者分布函数的角度体现出来的:在宇宙中所有其它事件的发生情况固定不变的条件下,如果一个事件A的发生与不发生对于另一个事件B的发生的概率(如果通过事件定义了随机变量那么也可以说分布函数)有影响,并且这两个事件在时间上又先后顺序(A前B后),那么我们便可以说A是B的原因。

 

    早期因果性是简单通过概率来定义的,即如果P(B|A)>P(B)那么A就是B的原因(Suppes,1970);然而这种定义有两大缺陷:一、没有考虑时间先后顺序;二、从P(B|A)>P(B)由条件概率公式马上可以推出P(A|B)>P(A),显然上面的定义就自相矛盾了(并且定义中的“>”毫无道理,换成“<”照样讲得通,后来通过改进,把定义中的“>”改为了不等号“≠”,其实按照同样的推理,这样定义一样站不住脚)。

 

    事实上,以上定义还有更大的缺陷,就是信息集的问题。严格讲来,要真正确定因果关系,必须考虑到完整的信息集,也就是说,要得出“A是B的原因”这样的结论,必须全面考虑宇宙中所有的事件,否则往往就会发生误解。最明显的例子就是若另有一个事件C,它是A和B的共同原因,考虑一个极端情况:若P(A|C)=1,P(B|C)=1,那么显然有P(B|AC)=P(B|C),此时可以看出A事件是否发生与B事件已经没有关系了。

 

    因此,Granger(1980)提出了因果关系的定义,他的定义是建立在完整信息集以及发生时间先后顺序基础上的。至于判断准则,也在逐步发展变化:

 

    最初是根据分布函数(条件分布)判断,注意Ωn是到n期为止宇宙中的所有信息,Yn为到n期为止所有的Yt (t=1n)Xn+1为第n+1X的取值,Ωn-Yn为除Y之外的所有信息。

    统计意义上的因果关系(整理)- - - - - - - (1)

 

    后来认为宇宙信息集是不可能找到的,于是退而求其次,找一个可获取的信息集J来替代Ω:

    F(Xn+1|Jn) F(Xn+1|(Jn-Yn)- - - - - - - (2)

 

    再后来,大家又认为验证分布函数是否相等实在是太复杂,于是再次退而求其次,只是验证期望是否相等(这种叫做均值因果性,上面用分布函数验证的因果关系叫全面因果性):

    E(Xn+1|Jn) E(Xn+1|(Jn-Yn)- - - - - - - (3)

 

    也有一种方法是验证Y的出现是否能减小对Xn+1的预测误差,即:

    σ2(Xn+1|Jn) < σ2(Xn+1|(Jn-Yn)) - - - - - - - (4)

 

    最后一种方法已经接近我们最常用的格兰杰因果检验方法,统计上通常用残差平方和来表示预测误差,于是常常用XY建立回归方程,通过假设检验的方法(F检验)检验Y的系数是否为零。

 

    相关关系与因果关系

    相关分析可以提供变量间的相关系数,但一般说来,研究者无法仅由此来确定两个变量间是否存在因果关系,以及因果关系的方向。在一般的相关研究中,轻易地做出一个因素导致另一个因素的结论是十分草率地,因为相关系数能告诉我们的仅是两个变量间的关联程度。

 

    注意:完全正相关并不等于因果关系。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有