大数据中的相关与因果:从研究‘剪刀石头布’说起
(2014-09-24 16:57:16)
标签:
大数据数据科学因果性相关性哲学 |
引言:前些天,网上热炒“剪刀、石头、布”的研究。研究者发现:赢家出招时,与上次相同的概率大于另外两种。于是,有人给出了游戏的‘制胜策略’.....本文不谈这件事的是是非非,而是就此事谈谈对与大数据的一点认识。
谈到‘概率’,会涉及到两类事物的集合:全集以及其若干子集。这类事物发生时,出现在特定子集的比例是大体稳定的。只有频度是稳定的,才能称其为概率。
在‘剪刀石头布’的游戏中,全集是三种招式,子集则是三种具体的招式。我们可以猜想:三种招式的比例大概是相同的,概率皆为三分之一。过去没人研究这个问题:没有价值而且无趣。但是,如果再深入一点,更换研究的集合,会多少有点意思:每个人的出法是不是一样?男人女人是否一样?大人小孩是否一样?如果结果是一样的,结论就被称为Trival——符合预期的平凡结果。研究也就失败了。还好,研究者发现了一个不太Trival的结果,值得和大家说道说道。
在上述研究中,花费了大量人力物力。能否不花钱,就得到有用或有趣的结果呢?在大数据时代,利用现成的数据,这是很容易做到的。例如:
l
l
l
l
l
l
这些结果有个共同的特点:某件事情发生的概率是不Trival的。换句话说:某个事件的发生概率与另一个事物相关。这种现象在统计上叫做相关性。
有人提出:大数据研究的重点是相关性,而不是因果性。其实,后半句完全是画蛇添足,很容易误导初学者。事实是:对许多事情来说,相关性就是最终需要的结果,没有必要研究因果性;而另外一些事情,必须找到因果性才知道如何利用。“相关性”为什么就够了呢?这让我想起一件事情:
20年前,金庸接受姜峰采访,谈到他喜欢的女孩子。他提到一句西方谚语:Taste
当然,爱思考的人应该进一步追问:大数据研究的本质真的是研究相关性吗?其实,研究相关性也是一种表象,真正要做的是研究概率的存在性和对特定变量的依赖性。如前所述,相关性的本质只是概率分布不均衡的表象。大数据研究的本质是发现并确认概率分布的不均衡性。众所周知,概率分布不均衡是绝对的、均衡是相对的。所以,不均衡性是需要仔细确认的,只有发生频度稳定、可重复时,才能称为概率。
这种认识看起来无聊,实则包含了方法上的差异:谈到相关性,很多人只是简单地计算相关系数,而不去考察分布的稳定性。事实上,单独一个集合中的结论,是无法自证稳定性的。要研究结论的稳定性,需要对数据进行分组。只有再各个分组中都稳定的结果,才是稳定的。事实上,分组的方法也很重要。分组不合理时,很容易出现稳定性的假象。所以,更合理的办法是:从不同的维度进行分组。也就是说,大数据分析首先要做的是确认事实:确认一种存在、一种带有随机性的存在、一种统计规律的存在。所以,观点的不同,会带来方法论的完全不一样。
有些时候,人们得知相关性就够了。知道‘买啤酒的往往买尿布’后,把啤酒放在尿布附近的货柜上,就可以增加销量。但是,知道‘冰激凌销售越多,被鲨鱼咬伤的人就越多’,就要限制销售冰激凌吗?所以,有些知识的使用价值依赖于因果性。
某种意义上说:研究因果关系,就是进行科学研究。事实上,大数据为人们提供了一种新的科学研究途径和方法,是历史性的进步。科学家们为大数据欢呼,也就不奇怪了。不久前,有位朋友写了一本有关金融哲学的著作。我对他说:你说的哲学问题,在大数据时代或许可以变成科学问题了!大数据带来的东西,确实是难以估量的。
除了科学家,工程师也需要知道因果性。否则,错误的决定很可能会带来巨大的损失。笔者认为:因果性的研究,应该以相关性研究为基础,同时兼顾领域知识,甚至需要进行实验、建模和仿真。这大概就是人们所说的‘数据科学’。
或许可以说:与工业大数据相比,商务活动中的大数据研究只是一个初级阶段。