加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

大数据航海时代

(2012-09-11 14:42:06)
标签:

杂谈

显然,大数据应用不是一蹴而就的事情,而是需要企业根据自身的业务发展现状,有规划、有步骤的来实现。


    为了帮助用户能够更好地实现大数据应用,IBM公司今年专门推出了针对企业用户的智慧分析洞察“3A5步”动态路线图。


    在这一路线图中,IBM把企业大数据应用的路线分为5步。首先是掌控信息(Align):也就是全面收集、整合、掌控信息;然后是获悉洞察(Anticipate):也就是从大数据中提取洞察并进行预测;第三步是采取行动(Act):优化决策成就业务绩效。即通过将掌握的信息通过分析获取洞察,用于到决策平台或决策流程中,帮助企业业务人员和CXO等决策者实现业务绩效的优化;第四步是学习(Learn):从每一次业务结果中获得学习和反馈,改善基于信息的决策流程;第五步是转型(Transform):制定清晰的分析战略,结合行业经验和既有案例,缔造突破性业务成果。也就是通过确定业务的优先级分析目标、清晰一致的策略,找到新的方法、业务创新模式;通过已经有的行业解决方案和其他客户的最佳实践,识别新的业务机会和价值。IBM所提供的路线图十分清晰,不过对于很多企业用户而言,他们依然有这样的困惑:哪些业务问题可以通过大数据分析来实现呢?


    IBM全球企业咨询服务部业务分析与优化服务大中华区总经理段仰圣认为,大数据可以为企业提供四个方面的洞察力:第一是通过客户行为分析留住客户,并在此基础上实现客户群体的持续增长;第二是通过信息管理、业务分析、内容管理等先进手段,帮助企业优化IT水平及业务流程,提高运营效率;第三是通过将业务分析贯穿财务规划流程,洞悉企业利润和成本来源,改善结算流程的处理时间和完整性,促进财务流程转型;第四是将分析洞察包含在传统和新兴的风险类别中,预测未来的法规要求及检测欺诈,帮助企业管理风险、欺诈和合规性。


    刘伟光则认为,大数据可以为用户带来三方面的价值。一是能够直接为用户产生金钱效益,促使客户消费。例如零售业、电信业等;二是降低风险。例如帮助银行业实现反欺诈;三是民生服务效率的提升,例如在公安、社保等行业的应用;四是提升企业内部的管理效率,降低管理成本。


    可以看到,上述两位所谈的方向大同小异,这也是目前大数据最主要的一些应用方向。当然,大数据的应用空间绝对不止于此。


    2012年7月21日,北京发生百年一遇的水灾,灾难造成了巨大的损失。在北京水灾后召开的关于建设城市应急系统的讨论会上,国家信息化专家委员会副主任宁家骏表示北京市应该尽快完善城市大数据的应用。在他看来,北京市发生水灾,在一定程度上是因为没有做好大数据的应用。“面对特殊的自然灾害,不仅需要有气象的数据,更需要有地貌的数据、地下管线的数据、交通流量的数据,如果我们有很好的模型,在大雨的时候,能够对复杂的数据及时进行分析,就可以有效应对自然灾害!”宁家骏说。


    大数据带来大机遇


    大数据的应用空间,套用一句广告词:一切皆有可能。可以预见,未来大数据的应用将无处不在,这也意味着在相当长的一段时间内,对于所有IT厂商而言,大数据市场都是一个巨大的机遇。


    2012年年初,开源分析机构Wikibon发布的一份报告中预计,全球大数据市场未来五年的复合年增长率(CAGR)将达到惊人的58%,到2017年将达到500亿美元。如此巨大的一个市场,足以让所有IT厂商为之疯狂。


   “对于做相关的软件或者应用解决方案的IT企业而言,大数据确实意味着大商机。”孙博凯说。


    事实上,这也是最近两三年,各大IT厂商都将大数据作为重要发展策略的原因之—。


    从目前来看,包括IBM、EMC、微软、SAP、甲骨文、英特尔等在内的各大厂商都已经在大数据方面有一系列的动作。而且,依照自身的优势和资源,各大厂商在战略的侧重点和市场优势方面也有所不同。


    例如,利用HANA技术,SAP将其在大数据方面的战略放在了大数据分析的速度上:通过HANA,用户可以实现对数据的实时分析。而IBM由于其在数据分析技术研发方面的领先性,则重点强调其在数据的深入挖掘和洞察上的技术优势。


    大数据加速IT产业融合


    虽然各大厂商在侧重点上有所不同。但是,在大数据市场,有一个趋势目前已经逐渐呈现:各厂商之间的市场和业务边界越来越模糊。


    其实,这是由大数据的特点所决定的。大数据并不是一个孤立的存在,在其整个生命周期内,大数据涵盖了获取、存储、分析、展现等多个环节。而对于IT厂商而言,如果想要在大数据市场的竞争中获得优势,就必须具备能够为用户提供全方位解决方案的能力。所以,在最近几年内,各大厂商在大数据方面都进行了大量的收购,希望通过这些收购能够使自己成为大数据整体解决方案的提供商,而不是只聚焦于某一两个点上。


    这也是大数据给整个IT产业所带来的重大变革之一:IT产业的竞争格局可能由此会发生巨大的改变,产业的融合进程会因大数据的出现而加速。


    刘伟光就认为,大数据的出现催生了各大IT厂商之间的侵蚀。


    确实,以EMC为例,作为一个传统的存储厂商,他们早已经将触角伸到了大数据生命周期的各个环节。


    “EMC不仅仅希望仅作为一个存储厂商的角色在处理大数据领域发挥作用,而是希望成为大数据基础平台的领导者。正是由于看到了大数据处理带来的巨大机遇,EMC在2010年收购了大数据平台方面技术领先的Greenplum,使其作为EMC大数据平台的战略基石。通过提供MPP分布式关系型数据库Greenplum DB和商业化的Greenplum Hadoop,并把两者可以紧密的集成在一起,使客户拥有了可控成本应对大数据挑战的基础平台。”刘伟光说。


    而业内另一巨头SAP,则通过对Business Object和Sybase的收购,实现了从ERP厂商到大数据解决方案服务提供商的跨越。


    另外如IBM、甲骨文、微软等近几年围绕数据分析也都进行了大量的收购。事实上,通过一系列的布局,目前各大厂商都正在试图成为大数据领域的平台级服务商。


    因此,可以预见,未来几年内,各大厂商针对大数据领域的并购会越来越多,越来越频繁。而各厂商之间的竞争也将越来越激烈。


    大数据催生创新的技术


    本文在前面曾经提到,大数据出现的一个很重要原因是新技术的出现。在卢东明看来,大数据这一词本身并没有太大的意义,关键在于其背后所催生出的创新的技术。“谁能够在大数据的技术创新方面领先,就有可能成为这一市场未来的领导者。”


    事实上,目前关于大数据的创新技术已经纷纷涌现。而在众多的新技术之中,有—项技术可以说是目前各大IT厂商关注的焦点,并被认为是解决大数据难题的最有效方法之一,它就是Hadoop。


    关于Hadoop,本刊在2012年第4期曾经做过介绍和分析,其最大的特点就是可以用较低的成本实现对大数据的快速分析。


  “大数据环境造成了结构化数据、半结构化数据和非结构化数据并存的格局,采用昂贵的设备进行数据治理当然好,但巨大的成本压力已成为很多企业难以承受的负重。Hadoop这种可以更容易开发和运行处理大规模数据的软件平台,能够以更经济的方式、更好的性能来处理数据,从而获得了企业的青睐。”Informatica核心技术部资深产品管理总监郑玮分析道。


    除了降低成本外,郑玮认为,Hadoop的另一个重要作用在于它能够真正提高大数据的价值。“这里举一家美国半导体行业客户的例子,他们为了分析出交易失败的具体原因,进行上千次测试来发现视频端口的故障,测试中生成了大量的数据,在没有使用Hadoop前,只能每10分钟进行抽样分析,使用Hadoop后,他们可以选择过去六年或三个月内的任意时间段的数据,进行数据挖掘,确定故障的原因,不仅降低了成本,同时也提高了价值。”


    事实上,目前Informatica公司已经把Hadoop作为其在大数据领域的重要发展方向。在其最新发布的Informatica 9.5中,就把Hadoop作为最重要的卖点之一。


   “在大数据时代,每小时要移动数十TB的交易数据、交互数据和流数据,我们希望能够提供不同的方法来提取和装载数据。Informatica PowerExchange for Hadoop可提供与HDFS和Hive适配器高性能连接,企业能够向Hadoop输送所有数据以便集成和处理大数据,通过与包括大型机、数据库及应用程序在内的所有数据(无论企业内部还是云中)的统一连接,可以轻松地以批量或实时方式在Hadoop系统中取送数据。”在郑玮看来,Hadoop已经成为大数据时代不可或缺的技术,而且将会发挥越来越重要的作用。“拥抱Hadoop吧,它将让你领导大数据时代。”


    对Hadoop如此青睐的IT厂商绝不止Informatica一家。


    EMC公司对于Hadoop的战略投入力度一直在加强。2011年,EMC就建立于一个1000节点集群用于测试新的Apache Hadoop版本,这一测试平台被称为“Greenplum Analytics Workbench”。


    同时EMC还推出一种新的分析设备Greenplum HD,这种设备将EMC Hadoop与EMC Greenplum数据库结合在一起,并实现结构化和非结构化数据的协同处理。“Greenplum HD支持Hadoop外部表格,因此使用户能访问驻留在Hadoop分布式文件系统(HDFS)上的数据,而无需物化数据。从Creenplum到HDFS,管理员可以并行读写文件,实现快速、简单的数据共享。借助强大的Greenplum SQL以及可访问HDFS数据的先进分析功能,可执行跨平台分析。”在刘伟光看来,传统的关系数据库在结构化数据查询和分析方面有着天然的优势,Hadoop则在非结构化数据的存储和处理方面有着很好的作用。而目前,很多企业客户都需要同时挖掘结构化和非架构化数据的价值,因此采用关系型数据库和Hadoop混搭的模式,应该是最理想的应用模式。


   “但这需要两者之间有很好的关联,而EMC则能够将两者无缝地集成在—起。”刘伟光介绍说。


    事实上,不仅是Informatica、EMC,包括IBM、微软、甲骨文等在内的众多IT巨头都已加入到支持Hadoop的阵营之中。


    在IBM的整体大数据战略框架之中,Hadoop被定义为以经济高效的方式分析PB级的结构化和非结构化信息。


    作为老牌的关系型数据库厂商,微软在SQLServer在2012版中也将Hadoop引入,并让其担当非结构化数据处理的重任。


   “Hadoop将与Windows Server 2012、SystemCenter 2012进行无缝的集成,因此微软的客户可以很方便地部署与管理Hadoop集群,并为SQL Server所用。尤为重要的是,借助于Windows Server 2012本身的高可用性设计,将能有效解决Hadoop集群在可用性与可靠性方面的传统弱项,比如NameNode的单点故障等。”孙博凯介绍说。


    可以看到,Hadoop已经成为大数据时代的明星,未来随着大数据应用的发展,特别是非结构化数据的数量和价值的增加,Hadoop的重要性也将越来越重要。


    不过,对于Hadoop来说,由于其开源的天然特性,因此其在高可用性、安全性方面的问题依然存在,虽然已经有—些商用的Hadoop出现,但从整体发展状况来看,距离完全成熟仍有一段不短的距离。


    Hadoop之外,另—项创新技术HANA,在大数据时代也正引起越来越多用户的关注。


    它的最大特点是能够实现对海量数据的实时分析和处理,可以让用户有更快的速度根据数据分析结果,对企业的经营和决策进行指导和调整,同时也能够带来运营成本方面的削减。


   “作为中国瓶装水及饮料领域发展非常快速的企业,农夫山泉曾经遇到过很多的挑战,比如大量的报表、各种各样的数据分析,以及对速度的极高要求。当时他们做了很多对比,最后果断地选择了SAPHANA。农夫山泉使用SAP HANA这样高效的数据平台之后达到了什么样的效果呢?在生成报表的速度上,他们提高了20~30倍,过去要花七八个小时,现在只用20~30分钟,一个晚上便可以做更深度地分析。复杂的逻辑运算速度提高了2000多倍,结账时间过去是24小时,现在只用11秒钟。对一个企业来说,这不光是简单的性能上的提高。”在卢东明看来,通过使用HANA,农夫山泉颠覆了整个企业的运营思维,即到底能够多快地了解或者调整运营状况,调整运营策略,“这对企业来说,是非常重要的。”


    列式数据库也是一项在大数据时代有着重要作用的新技术。与传统的行式数据库相反,它将数据以列的方式进行存储,大大节省了存储空间,数据库查询速度也相应提升。


    当然,大数据应用所催生的新技术绝不止以上这三种。而未来,随着大数据应用的逐步普及,肯定会有更多创新的技术产生。


    关于大数据,我们虽然已经说了很多,但事实上,仍然只是沧海一粟。对于大数据的未来,我们也很难用一篇或几篇文章来分析清楚。


    不过,至少有一点可以预见的是:大数据将会给IT产业以及整个社会带来巨大的变革。


    就如当初的大航海时代一样,在未来的几年甚至几十年内,大数据航海时代都将产生难以估量的影响。


    也许,在将来的某一天,我们会惊奇的发现:数据将主导一切。因此,无论是IT企业或是用户,都需要认识到大数据的价值:重视大数据,从现在开始。

 

 

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有