加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

大数据中的相关与因果:从研究‘剪刀石头布’说起

(2014-09-24 16:57:16)
标签:

大数据

数据科学

因果性

相关性

哲学

 

引言:前些天,网上热炒“剪刀、石头、布”的研究。研究者发现:赢家出招时,与上次相同的概率大于另外两种。于是,有人给出了游戏的‘制胜策略’.....本文不谈这件事的是是非非,而是就此事谈谈对与大数据的一点认识。

 

 

谈到‘概率’,会涉及到两类事物的集合:全集以及其若干子集。这类事物发生时,出现在特定子集的比例是大体稳定的。只有频度是稳定的,才能称其为概率。

 

 

在‘剪刀石头布’的游戏中,全集是三种招式,子集则是三种具体的招式。我们可以猜想:三种招式的比例大概是相同的,概率皆为三分之一。过去没人研究这个问题:没有价值而且无趣。但是,如果再深入一点,更换研究的集合,会多少有点意思:每个人的出法是不是一样?男人女人是否一样?大人小孩是否一样?如果结果是一样的,结论就被称为Trival——符合预期的平凡结果。研究也就失败了。还好,研究者发现了一个不太Trival的结果,值得和大家说道说道。

 

 

在上述研究中,花费了大量人力物力。能否不花钱,就得到有用或有趣的结果呢?在大数据时代,利用现成的数据,这是很容易做到的。例如:

提前退休会缩短寿命。

音乐品味预示政治倾向。

素食主义者很少误机。

选举之后,犯罪率会上升。

冰激凌销售越多,被鲨鱼咬伤的人就越多。

..........

 

这些结果有个共同的特点:某件事情发生的概率是不Trival的。换句话说:某个事件的发生概率与另一个事物相关。这种现象在统计上叫做相关性。

 

有人提出:大数据研究的重点是相关性,而不是因果性。其实,后半句完全是画蛇添足,很容易误导初学者。事实是:对许多事情来说,相关性就是最终需要的结果,没有必要研究因果性;而另外一些事情,必须找到因果性才知道如何利用。“相关性”为什么就够了呢?这让我想起一件事情:

 

20年前,金庸接受姜峰采访,谈到他喜欢的女孩子。他提到一句西方谚语:Taste No Argument——喜好是没有理由的。一个人喜好买什么书、穿什么衣服、找什么女朋友,往往与个人喜好相关。事实上上,成功应用大数据的例子,往往与个人喜好相关。与喜好有关的事情是没有理由的。对商务活动来说,知道相关性就够了,为啥去要研究因果行呢?

 

当然,爱思考的人应该进一步追问:大数据研究的本质真的是研究相关性吗?其实,研究相关性也是一种表象,真正要做的是研究概率的存在性和对特定变量的依赖性。如前所述,相关性的本质只是概率分布不均衡的表象。大数据研究的本质是发现并确认概率分布的不均衡性。众所周知,概率分布不均衡是绝对的、均衡是相对的。所以,不均衡性是需要仔细确认的,只有发生频度稳定、可重复时,才能称为概率。

 

这种认识看起来无聊,实则包含了方法上的差异:谈到相关性,很多人只是简单地计算相关系数,而不去考察分布的稳定性。事实上,单独一个集合中的结论,是无法自证稳定性的。要研究结论的稳定性,需要对数据进行分组。只有再各个分组中都稳定的结果,才是稳定的。事实上,分组的方法也很重要。分组不合理时,很容易出现稳定性的假象。所以,更合理的办法是:从不同的维度进行分组。也就是说,大数据分析首先要做的是确认事实:确认一种存在、一种带有随机性的存在、一种统计规律的存在。所以,观点的不同,会带来方法论的完全不一样。

 

有些时候,人们得知相关性就够了。知道‘买啤酒的往往买尿布’后,把啤酒放在尿布附近的货柜上,就可以增加销量。但是,知道‘冰激凌销售越多,被鲨鱼咬伤的人就越多’,就要限制销售冰激凌吗?所以,有些知识的使用价值依赖于因果性。

 

某种意义上说:研究因果关系,就是进行科学研究。事实上,大数据为人们提供了一种新的科学研究途径和方法,是历史性的进步。科学家们为大数据欢呼,也就不奇怪了。不久前,有位朋友写了一本有关金融哲学的著作。我对他说:你说的哲学问题,在大数据时代或许可以变成科学问题了!大数据带来的东西,确实是难以估量的。

 

除了科学家,工程师也需要知道因果性。否则,错误的决定很可能会带来巨大的损失。笔者认为:因果性的研究,应该以相关性研究为基础,同时兼顾领域知识,甚至需要进行实验、建模和仿真。这大概就是人们所说的‘数据科学’。

 

 

 

 

或许可以说:与工业大数据相比,商务活动中的大数据研究只是一个初级阶段。

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有