质疑大数据_老鬼阿定的专业博客

http://blog.sina.com.cn/u/2450865743

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

质疑大数据

(2013-05-17 11:21:18)

标签：

it

分类：老鬼制造

大数据，无疑是今年IT业内最热的词。厂商热推，媒体热炒。不谈大数据，不推大数据，不用大数据，一时间仿佛就没有了未来。

大数据热源于2010年哈佛大学教授维克托• 舍恩伯格的专著《大数据时代:生活、工作与思维的大变革》。他在书中断言：大数据时代最大的转变就是，放弃对因果关系的渴求，而取而代之关注相关关系。也就是说只要知道“是什么”，而不需要知道“为什么”。

大数据在三年的实践中，人们对大数据的认知不断深化。时至今日，我们终于见到了对大数据最为严肃和理性的质疑。这些严肃而非炒作性质的质疑总体上来自理论和实践两个层面。

在理论层面，最为专业的质疑来自analyticbridge网站由 Vincent Granville于今年5月发表的文章：The curse of big data（大数据的诅咒）。这篇文章发表之后被广为转载和引用。

“大数据的诅咒”一文从数据分析专业的角度，以数理统计的理论论证了大数据“放弃因果关系”的谬误。

所谓“大数据的诅咒”是指，当人们试图在有数十亿甚至数十万亿个数据点，而且包含数以千计指标的非常大的数据集中寻找一些模式时，一定会发现一些用处的巧合事件。理论上，当样本数量过大（变量因子超过1000个），就会在数据集中发现数量众多的“统计上显著”而非“因果上显著”的关系。在数据分析上，“因果上显著”为信号，而“统计上显著”为噪音。所以通俗地讲，“大数据的诅咒”是指，噪音必然会将信号淹没。

大数据鼓吹者喜欢引用的“啤酒与尿布”案例，并非出自大数据的分析。按照“大数据的诅咒”，如果运用大数据，一定会得于N多个类似于“啤酒与尿布”的量化关系，从而把“啤酒与尿布”（信号）淹没在数量庞大的噪音中，而不能发现“啤酒与尿布”的因果关系。当今所有关于大数据的技术与方案，无一能自动揭示因果关系。

在实践层面，《黑天鹅：如何应对不可知的未来》一书的作者，商业思想家纳西姆•塔勒布指出，随着我们掌握的数据越来越多，可以发现的统计上显著的相关关系也就越来越多。这些相关关系中，有很多都是没有实际意义的，在真正解决问题时很可能将人引入歧途。这种欺骗性会随着数据的增多而指数级地增长。在这个庞大的“干草垛”里，要找的那根针被越埋越深。

大数据应用的鼻祖之一是生命科学中的基因学。科学家曾热衷于对整个基因排序，然后剖析其中的相关性，这种没有尽头的“盘前审问”导致种种无用的结果发生，科学家们一头雾水，至今在基因大数据分析中一无所获。

北大教授刘德寰以自已详实的实验数据证明，巨量数据集和细颗粒度的测量会导致出现“错误发现”的风险增加。那种认为“假设、检验、验证的科学方法已经过时”的论调，正是大数据时代的混乱与迷茫。

Christopher Mims最近发表文章称，以 Facebook 为例，工程师交给集群处理的大多数任务也只是 MB—GB 级的，这意味着用笔记本就能处理了。Yahoo交给集群处理的任务规模平均是 12.5GB。这个规模对于任何服务器都没有问题。大数据不是革命，小数据才是革命。格里格•孟德尔仅靠一本笔记本的数据就发现了基因遗传的秘密。重要的是收集合适的数据，而不是随便收集。

大数据，原来是个大忽悠。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：天天IT 2013-5-17

后一篇：天天IT 2013-5-22

新浪BLOG意见反馈留言板　欢迎批评指正