加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

小议《大数据》

(2013-11-15 13:03:05)
标签:

魏延政

大数据

手机博客

IT

建议大家还是读读《大数据》这本书吧,不是generally数据量够大就叫大数据。我发觉没有读过这本书的,或者即便读了的,对于什么是“大数据”还停留在过去传统的观念上——必定要找出确定性、解释出why。如果《大数据》仍然是研究科学的确定性和why,就是老调新弹,没什么新意,此书的副标题就不敢用“revolution”革命一词,此书也不会轰动全球。原书中强调了大数据和传统上基于精准、函数、因果、概率、统计的观念的本质区别,它注重the most likely what,而不注重背后因果关系的why,让习惯了这些传统观念的人立即适应大数据的观念和方法也不是一下就能转变过来的,这是书中原话。建议读英文版,现在的中文翻译大多是不负责任的。
大数据的第一大特征是“大”,大到人脑电脑都处理不过来,大到传统的概率、统计、采样都落伍了,不足以描绘这世界多样多变不确定的细节,往往被过去传统科学为了描述精确性而无法描绘得出,进而把许多细节全都漏掉、遗失掉了,所以必须得用一种新的办法来给这个世界的所有细枝末节一个完整的还原。
“大数据”的第二大特征“messy”的意义:如果必定要用传统的精准函数、概率统计的观念理解这个世界,非要把不确定的都剔除掉或把有误差的都纠错规整过来,那么95%的世界我们就永远无法接触认识,因为它们根本就是不确定的、有误差的、没有规律可循的。
“大数据”的第三大特点是:find the correlations and act on them may often be GOOD ENOUGH —— 如能找到相关性并能处理事情就已经足够好了!潜台词是:那就很不错了,就别再按传统思维非要找出确定性的函数关系或因果关系去解释why了!反正基于第一大特点“足够大量” 第二大特点“无规则”,你根本无从找寻准确的函数因果关系,这样耗钱耗人耗时的事情美国都做不起!
“大数据”给出的是一种全新的思维方法去洞察这个世界难于解释的一面,而非传统科学思维方法的一个改进,如果简单的理解为数据量足够大就是大数据,那这本书的作者还有谷歌、IBM、微软的大数据科学家们就白写这本书了。
http://s11/original/001krjPpzy6EeMvgfXA9a&690

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有