《大数据时代的历史机遇》连载(16)数据科学——改变探索世界的方法

标签:
it |
第一章 大数据概述
第四节 数据科学——改变探索世界的方法
提要:
1.越来越多的事物不断的数字化。使得人们可以从大量的数据中,发现隐藏的自然规律、社会规律和经济规律。从这个角度来看,大数据将拓展人类的视野。
2.大数据给科学和教育事业的发展提供了前所未有的机会,同时也提出了前所未有的挑战。它将对现有的科研和教学体制带来大幅度的变革,对科学与产业之间的关系、科学与社会之间的关系带来大幅度的变革。
深入思考大数据带来的颠覆性的影响,其根源就是越来越多的事物数据化了。图像、声音、人类的情绪和基因组,看起来风牛马不相及。但是信息科技的发展都把他们神奇地变成了“0”、“1”的不同组合,也就是“数据”。
当网页变成数据,谷歌具备了令人大跌眼球的全文搜索能力,在几个毫秒之内,就能让人们检索世界上几乎所有的网页。当方位变成数据,每个人都能借助GPS 快速到达目的地。当情绪变成数据,人们甚至根据大家快乐与否判断股市的涨跌。这些不同的数据可以归结为几类相似的数学模型,从而使得“数据科学”成为一门具备普遍适用性的学科。譬如生物信息学、计算社会学、天体信息学、金融学、经济学、电子工程等学科,都依赖数据科学的发展。
事实上,数据科学还带给大家观察世界的新方法——从大量的数据中,揭示世界运行的规律。2008 年《连线》杂志主编克里斯·安德森①就指出“数据爆炸使所有的科学研究方法都落伍了”,用一系列的因果关系来验证各种假设和猜想的研究范式已经不实用了,如今它已经被无需理论指导的纯粹的相关关系研究所取代。安德森指出:“现在已经是一个有海量数据的时代,应用数据已经取代了其他的所有学科工具。而且只要数据足够多,就能说明问题。如果你有一拍字节的数据,只要掌握了这些数据之间的相关关系,一切就都迎刃而解。
安德森的观点引起轩然大波,但是的确值得深入思考。从牛顿力学到量子力学,科学家们建构了精巧的模型,原则上来讲几乎可以解释日常所有的自然现象,量子力学提供了研究化学、材料科学、工程科学、生命科学等几乎所有自然和工程学科的基本原理。但是狄拉克①指出,如果以量子力学的基本原理为出发点去解决这些问题,那么其中的数学问题太困难了。如果人们利用更为简单的数学模型,利用大量的数据则可以得到在工程实践中完全可行的结果。
人们在研究自然语言处理方面走过的弯路,为安德森的观点提供了有利的证据。20 世纪50 年代,几乎所有的科学家都认为如果让计算机来充当翻译,就必须像人一样,让他理解词句的含义。于是提出人工智能的概念,让计算机来学习的人类的各种规则。这种方法很快在70 年代走到了尽头。但是基于大量数据、运用概率模型的统计语言学的出现使得自然语言处理柳暗花明。如果没有这些概率统计模型,风靡一时的Siri(个人语音处理)等应用,就不可能实现。
本书第九章将系统的阐述大数据给科学和教育事业提供的前所未有的机会。我们将指出,第一,数据科学将成为科研体系中的重要部分,并逐渐达到与包括物理、化学、生命科学等学科在内的自然科学分庭抗礼的地位。第二,数据科学研究和市场、产业有着密切的联系。在数据科学领域,从科学原理的发现到产业化所花费的时间远远短于传统科学的领域。第三,数据科学同样和人们的日常生活、与社会紧密关联。
----------------