加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

质疑大数据

(2013-05-17 11:21:18)
标签:

it

分类: 老鬼制造

大数据,无疑是今年IT业内最热的词。厂商热推,媒体热炒。不谈大数据,不推大数据,不用大数据,一时间仿佛就没有了未来。

 

大数据热源于2010年哈佛大学教授维克托• 舍恩伯格的专著《大数据时代:生活、工作与思维的大变革》。他在书中断言:大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。

 

大数据在三年的实践中,人们对大数据的认知不断深化。时至今日,我们终于见到了对大数据最为严肃和理性的质疑。这些严肃而非炒作性质的质疑总体上来自理论和实践两个层面。

 

在理论层面,最为专业的质疑来自analyticbridge网站由 Vincent Granville于今年5月发表的文章:The curse of big data(大数据的诅咒)。这篇文章发表之后被广为转载和引用。

 

“大数据的诅咒”一文从数据分析专业的角度,以数理统计的理论论证了大数据“放弃因果关系”的谬误。

 

所谓“大数据的诅咒”是指,当人们试图在有数十亿甚至数十万亿个数据点,而且包含数以千计指标的非常大的数据集中寻找一些模式时,一定会发现一些用处的巧合事件。理论上,当样本数量过大(变量因子超过1000个),就会在数据集中发现数量众多的“统计上显著”而非“因果上显著”的关系。在数据分析上,“因果上显著”为信号,而“统计上显著”为噪音。所以通俗地讲,“大数据的诅咒”是指,噪音必然会将信号淹没。

 

大数据鼓吹者喜欢引用的“啤酒与尿布”案例,并非出自大数据的分析。按照“大数据的诅咒”,如果运用大数据,一定会得于N多个类似于“啤酒与尿布”的量化关系,从而把“啤酒与尿布”(信号)淹没在数量庞大的噪音中,而不能发现“啤酒与尿布”的因果关系。当今所有关于大数据的技术与方案,无一能自动揭示因果关系。

 

在实践层面,《黑天鹅:如何应对不可知的未来》一书的作者,商业思想家纳西姆•塔勒布指出,随着我们掌握的数据越来越多,可以发现的统计上显著的相关关系也就越来越多。这些相关关系中,有很多都是没有实际意义的,在真正解决问题时很可能将人引入歧途。这种欺骗性会随着数据的增多而指数级地增长。在这个庞大的“干草垛”里,要找的那根针被越埋越深。

 

大数据应用的鼻祖之一是生命科学中的基因学。科学家曾热衷于对整个基因排序,然后剖析其中的相关性,这种没有尽头的“盘前审问”导致种种无用的结果发生,科学家们一头雾水,至今在基因大数据分析中一无所获。

 

北大教授刘德寰以自已详实的实验数据证明,巨量数据集和细颗粒度的测量会导致出现“错误发现”的风险增加。那种认为“假设、检验、验证的科学方法已经过时”的论调,正是大数据时代的混乱与迷茫。

 

Christopher Mims最近发表文章称,以 Facebook 为例, 工程师交给集群处理的大多数任务也只是 MB—GB 级的,这意味着用笔记本就能处理了。Yahoo交给集群处理的任务规模平均是 12.5GB。这个规模对于任何服务器都没有问题。大数据不是革命,小数据才是革命。格里格•孟德尔仅靠一本笔记本的数据就发现了基因遗传的秘密。重要的是收集合适的数据,而不是随便收集。

 

大数据,原来是个大忽悠。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有