质疑大数据
(2013-05-17 11:21:18)
标签:
it |
分类: 老鬼制造 |
大数据,无疑是今年IT业内最热的词。厂商热推,媒体热炒。不谈大数据,不推大数据,不用大数据,一时间仿佛就没有了未来。
大数据热源于2010年哈佛大学教授维克托•
大数据在三年的实践中,人们对大数据的认知不断深化。时至今日,我们终于见到了对大数据最为严肃和理性的质疑。这些严肃而非炒作性质的质疑总体上来自理论和实践两个层面。
在理论层面,最为专业的质疑来自analyticbridge网站由
“大数据的诅咒”一文从数据分析专业的角度,以数理统计的理论论证了大数据“放弃因果关系”的谬误。
所谓“大数据的诅咒”是指,当人们试图在有数十亿甚至数十万亿个数据点,而且包含数以千计指标的非常大的数据集中寻找一些模式时,一定会发现一些用处的巧合事件。理论上,当样本数量过大(变量因子超过1000个),就会在数据集中发现数量众多的“统计上显著”而非“因果上显著”的关系。在数据分析上,“因果上显著”为信号,而“统计上显著”为噪音。所以通俗地讲,“大数据的诅咒”是指,噪音必然会将信号淹没。
大数据鼓吹者喜欢引用的“啤酒与尿布”案例,并非出自大数据的分析。按照“大数据的诅咒”,如果运用大数据,一定会得于N多个类似于“啤酒与尿布”的量化关系,从而把“啤酒与尿布”(信号)淹没在数量庞大的噪音中,而不能发现“啤酒与尿布”的因果关系。当今所有关于大数据的技术与方案,无一能自动揭示因果关系。
在实践层面,《黑天鹅:如何应对不可知的未来》一书的作者,商业思想家纳西姆•塔勒布指出,随着我们掌握的数据越来越多,可以发现的统计上显著的相关关系也就越来越多。这些相关关系中,有很多都是没有实际意义的,在真正解决问题时很可能将人引入歧途。这种欺骗性会随着数据的增多而指数级地增长。在这个庞大的“干草垛”里,要找的那根针被越埋越深。
大数据应用的鼻祖之一是生命科学中的基因学。科学家曾热衷于对整个基因排序,然后剖析其中的相关性,这种没有尽头的“盘前审问”导致种种无用的结果发生,科学家们一头雾水,至今在基因大数据分析中一无所获。
北大教授刘德寰以自已详实的实验数据证明,巨量数据集和细颗粒度的测量会导致出现“错误发现”的风险增加。那种认为“假设、检验、验证的科学方法已经过时”的论调,正是大数据时代的混乱与迷茫。
Christopher
大数据,原来是个大忽悠。