加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

大数据的前世、今生和来世-读《大数据》

(2013-08-16 09:48:50)
标签:

大数据

it

分类: 读后感

    早在1980年,美国就有人提出了“大数据”的概念。30多年来,各个领域的数据量都在迅猛增长,企业界、学术界也不断地探讨这种现象及其所带来的意义,“大数据”这个概念变得越来越重要,最后上升为国家和政府层面的发展战略。

    其实收集数据、分析数据、发布数据,这一系列和数据有关的信息技术,在企业界早已存在,这就是商务智能(BI)。追本溯源,卡内基梅隆大学的赫伯特.西蒙教授对决策支持系统的研究,是现代商务智能概念最早的源头和起点,但直到上世纪90年代,由于一些新技术的出现,打破了瓶颈,BI的概念才得以横空出世。请随着《大数据》的作者涂子沛先生一起回头一一盘点这些新技术,从中可以清楚地看到BI不断发展的轨迹。

    起点当然就是计算机,冯.诺依曼之所以被称为“计算机之父”,其最大的贡献之一,在于他明确了计算机内部的数据组织形式:二进制。软件是由程序和数据组成的。二进制的确定,解决了数据在计算机内部传送“理解”和“流动”的问题,但当数据在计算机内部累计得越来越多的时候,如何快速地组织、存储和读取数据又成为新的挑战。

    1970年,IBM的研究员埃德加.科德发明了关系型数据库,具有结构化高、冗余度低、独立性强等优点,彻底把软件中的程序和数据分立开来。从此,软件的发展成了“两条腿”走路,程序和数据在各自的轨道上自由奔跑。

    1988年,为解决企业的数据集成问题,IBM公司的两名研究员创造性的提出了一个新的术语:数据仓库。1992年,比尔.恩门出版了《数据仓库之构建》一书,第一次给出了数据仓库的清晰定义和操作性很强的实战法则,真正拉开了数据仓库走向大规模应用的序幕。恩门被誉为“数据仓库之父”。

    数据仓库是商务智能的依托,是对海量数据进行分析的核心物理构架。它可以形象地理解为一种格式统一的多源数据存储中心,数据源可以来自多个不同的系统;这些系统,无论运行的平台、编制的语言及所处的物理位置有何不同,其数据都可以按统一定义的格式被提取出来,在通过清洗、转换、集成,最后加载进数据仓库。这个提取、转换、装载,就是所谓的ETL,可通过专门的ETL工具来实现。

    有了数据仓库,下一个新技术联机分析,就如水到渠成般迅速形成,此时数据仓库开始散发出真正的魅力。联机分析(Online Analytical Processing),也称多维分析。早在1960年代,研究人员就意识到了“动态”决策需求和“静态”报表之间的矛盾,决策支持系统的先驱者就开始探索联机分析的方法。

    1993年,发明关系型数据库的科德再一次站到了创新的前沿,他发表了论文《信息技术的必然:给分析用户提供联机分析》,在这篇文章里,他详细的阐述了联机分析的定义,并为如何构建联机分析提出了“黄金十二定律”。他形象地比喻说:“用关系型数据库来分析数据,是试图用‘锤子’把一个‘螺丝钉’硬生生地‘敲’进墙”,科德认为,联机分析就是解决“数据分析”问题的“螺丝刀”,报表的定制权由后台的开发人员直接转移到了前端的用户。开发人员只需预先为用户在后台构建多维的数据立方体(Cube)。一旦多维立方体建模完成,用户可以在前端的各个维度之间自由切换,并可以从不同的维度、不同的粒度对数据进行分析,从而获得全面、动态、可随时加总或细分的分析结果。

    真正赋予BI灵魂的是下一个新技术:数据挖掘。1989年,可谓数据挖掘技术兴起的元年。这一年,图灵奖的主办单位计算机协会(ACM)下属的知识发现和数据挖掘小组(SIGKDD)举办了第一届数据挖掘的学术年会,出版了专门期刊。也正是在1989年,高德纳咨询公司的德斯纳在商业界为“商务智能”给出了一个正式定义:“商务智能(BI),指的是一系列以事实为支持、辅助商业决策的技术和方法。”

    数据挖掘是在海量的数据当中通过分析和建模,发现数据背后隐藏的模式和微妙的关系,以揭示过去的规律、预测未来的趋势。如果说联机分析是对数据的一种透视性的探测,数据挖掘则是对数据进行挖山凿矿式的开采。他的主要目的,一是要发现潜藏在数据表面之下的历史规律,二是对未来进行预测,前者称为描述性分析,针对过去,揭示规律;后者称为预测性分析,面对未来,预测趋势。

   数据挖掘把数据分析的范围从“已知”扩大到了“未知”,从“过去”推向了“未来”,是BI真正的生命力和灵魂所在。

   进入21世纪之后,风生水起,新的技术浪潮又使BI的产业链条向前延伸了一大步:这就是数据可视化的华丽上演,数据可视化要追溯到19世纪中期的南丁格尔,南丁格尔?没错,就是那个著名的护士,南丁格尔奖就是以她的名字命名的,这是红十字为表彰在护理事业中做出卓越贡献人员的最高荣誉奖。她还是一个卓越的统计学家,她用漂亮的鸡冠花图直观的表现了战斗死亡和非战斗死亡两种原因死亡人数的悬殊对比,从而促使英国议会设立了野战医院。

   因为人的创造力不仅仅在于逻辑思维,还取决于形象思维,这就是我们常说的要开发右脑。数据可视化的技术,通过图像在逻辑思维的基础上进一步激发人的形象思维和空间想象能力,吸引、帮助用户洞察数据之间隐藏的关系和规律。而且可视化的简单直观的效果也极大地推动了BI的大众化。

    可视化技术的出现,使BI形成了一个从数据整合、分析、挖掘到展示的完整闭环。它的起点是多个独立的关系型数据库,经过数据整合之后形成统一的、多源的数据仓库,再根据用户的需要,重新取出若干数据子集,或构造多维立方体(Cube)进行联机分析,或进行数据挖掘,发现潜藏的规律和趋势。如果挖掘的结果经得起现实的检验,那就形成了新的知识,这种知识,还可以通过数据可视化来表达、展示和传递。

    看完了BI至今为止的整个一部发展史,我们可以看到这是一个渐进的、复杂的演进过程,而且它的内涵和外延,还处于动态的发展之中,特别是作为其“灵魂”的数据挖掘技术,潜力非常巨大,可以预见,将对人类社会的发展产生深远的影响。

    大数据时代的竞争,将是知识生产率的竞争。而BI无疑是这个时代最为瞩目的竞争利器。

    而大数据时代正在催生的最大技术变革,是重新构造万维网。1998年,伯纳斯-李领导的麻省理工学院万维网联盟(W3C)就开始提出下一代互联网的定义和构建方法。称为“语义网”,就是“数据网”。

    现在互联网上,网页是信息资源的基本组织单位,各个网页都有一个地址,即URI;在语义网上,数据将像网页一样,成为组织资源的单位。它们是通过数据之间内在的关系挂起钩来、“联”在一起。这种关系,不是随便定义的,而是基于数据的含义和属性产生的。

    这种相联,就像两个数据库通过“主键”相联起来一样,不同的是,这里的“主键”,是一个数据的元数据。对用户而言,这意味着可以从一片数据自由地跳转到其他数据—数据冲浪。这个跳转,依靠的不是人为的链接,而是本质关系上的联结。

    不难想象,在新一代的语义网里,谷歌的搜索服务,将不再有立足之地,各种社交网站的功能和格局也将改写,语义网的智能平台将触发、呼唤一些崭新的服务。

    语义网的建设却非一日之功、一人之力。首要原因是有大量关于元数据的标准需要制定、统一。语义网的建设,元数据是关键。只有通过这些计算机能理解的语义标记,每一个片断的信息才可以和其它的信息自动发生联系,揉捏整合,形成联结的关系。作为一种标记语言,元数据必须是标准的,一致的,又是灵活的、可扩展的,适用于万事万物。

    在各种各样本体的基础之上,为数据加上语义一致的元数据标签,这是语义网最基础也是最繁琐的工作之一。语义网蓄势未发,除了基础工作庞大繁杂之外,还有一个经济学上的原因,可以用网络的外部性来解释。

    你投入资源、人力,把你的网页、数据重新定义了,但还不够,你的数据必须和其他数据相联,你的工作才能产生价值。也就是说,你投资的效果,不是立竿见影的,而是最终取决于其他人是否投资、和你关联。只有全球性的数数相联,语义网才能最终形成、发挥最大的效用。

    就像浏览网页已经成为我们的生活方式一样,数据在网上的自动整合和跳转,将会成为我们新的生活方式。通过这种新的方式,互联网将向我们“推送信息”,而不再是我们在网上“搜索”信息。

    那将是一个更加辉煌的大数据时代。大数据之“大”,将不仅仅意味着数据之多,还意味着,每一个数据都能在互联网上获得生命、产生智能、散发活力和光彩。

 

--注:本文全部资料来自涂子沛先生的《大数据》

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有