加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

小议《大数据》 之二

(2013-11-27 19:43:34)
标签:

魏延政

大数据

杂谈

分类: 也谈IT

为什么我建议要读英文原版书,举一例,《大数据》英文版我读到如下一段话,我就猜测中文版一定翻译得驴唇不对马嘴。英文"correlation"和"causality"的哲学逻辑含义并不恰如其分的等同于中文"相关性"和"因果关系",这些本就很难翻译。赶紧特意从网上找来中文版找到这段话,果不其然,整段翻译不光漏掉很重要的第二句,而且没有一句翻译出作者原意的!我都想骂人了!读中文版认为此书没意义的,只能怪中文版翻译得太不负责任;如果对英语的理解以及对原作者要表达的意思理解到位的话是不会认为此书没有意义的。
书中的原话也说,习惯于精确公式科学的人很难一下转变到大数据的不那么精确的方法上,总也认识不到这世界存在太多没有精确公式所能解释的相关事物,从而武断否定messy大数据、只认可精确科学(如概率统计),这是不合理的。事实上,相关不意味着一定有因果关系。而精确科学的目的是要找出相关事物的精确因果关系,即使因果关系根本不存在,精确科学的方法还是先假定其存在然后用采样数据去验证其存在与否。你先假定精确关系存在,这本身就已经陷入fast thinking的intuition中了,intuition本就是不那么确定的correlation,而这恰是大数据的"新"观念"新"方法。其实这种方法并不新,早就被人类运用了上千年,只是过去因为计算能力的限制,我们只好用概率统计和非常有限的小数据采样去假定和窥测纷繁复杂的世界,而繁杂的世界往往并不像我们假定的精确公式那么简单,所以我们总在不厌其烦的解释概率统计中的偏差是为什么、所以我们的经济学原理总在不厌其烦的出现种种新的原理去抹掉旧原理,直到种种经典原理一个个被推翻被认为无效,人们才意识到我们的世界太过纷繁复杂而无法处处都有那么精确的公式去解释出个为什么,加上现在我们有了足够强大的计算能力去还原繁杂世界的原本面目和诸多不确定的细节,我们又把这些fast thinking的intuition拿出来,叫做"大数据"。
与fast thinking intuition相对的,正是传统精确科学的slow causality building on methodical experiments,这两种人类探知世界的方法,被普林斯顿精神学教授Daniel Kahneman总结出来并获得了2002年的诺贝尔经济学奖。那些只相信精确"科学"的人,你难道不相信诺贝尔奖吗?如果连诺贝尔奖都不相信就没有什么科学可谈了。这个诺贝尔奖说的就是精确与不那么精确两种方法都是我们必须的方法,不那么精确的大数据方法其实也是建立在概率统计和精确原理的基础上的,他们互不矛盾、且互补存在。当我们无法用精确性解释为什么或者耗时耗钱太多无法承受的情况下,用大数据经济有效的观测到一些难于解释的相关事物,或许我们还有必要进一步探究精确的为什么,也或许这些本就没有精确关系的松散相关性就已经足够好了、而无需再探究为什么了。其实,我们人类现有的科学能解释的只是这个世界的很小一部分,大数据方法提供了另一种观察理解世界的更广泛更有效率的方法。

http://s12/mw690/001krjPpty6EymukPX51b之二" />
英文原版
http://s13/mw690/001krjPpty6EymxuloU3c之二" />
中文版翻译,驴唇不对马嘴
http://s6/mw690/001krjPpty6EymzDn9z65之二" />
如果能读英文原版,千万不要读中文翻译版,因为许多英文根本不存在对等的中文,如果英语水平再差一些就只能翻译个驴唇不对马嘴了

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有