大数据分析通常需要依靠大量分布式的计算基础设施、分布式框架和计算存储系统。但不是每个用户都有条件建立这些大数据基础设施。巨大市场需求和用户有限的计算资源之间的矛盾越来越突出,在这种背景下,大数据云服务应运而生。Amazon、Google等互联网公司都看中了大数据云服务市场的蛋糕,纷纷推出大数据分析的WEB服务来提供给用户有偿使用。
Amazon
Elastic
MapReduce(EMR)是Amazon提供的大数据分析云服务。这是一个商业化的Hadoop基础设施服务,基于它所提供的分布式计算能力,企业、研究人员、数据分析师和开发人员能够方便地根据自身需求来处理和分析大量数据。它通过在
Amazon 云上运行的虚拟服务器的Hadoop集群来分析客户提交的海量数据分析作业。自 2009 年以来,全球数千客户使用
Amazon EMR 来启动数百万的集群。在 Hadoop 架构上面运行的开源项目,例如
Hive、Pig、HBase、DistCp、Ganglia、Mahout 和 R,都已与 Amazon EMR 集成。Amazon
EMR能即时灵活配置自身所需容量大小,执行数据密集型应用计算,完成 Web
索引、数据挖掘、日志文件分析、机器学习、财务分析、科学模拟和生物信息研究等任务。
http://s11/mw690/4aa50b4dtx6Ds47DUkafa&690
Amazon
EMR是基于 Amazon Elastic Compute Cloud (Amazon EC2) 技术和 Amazon Simple
Storage Service (Amazon S3) 技术的 Web规模大数据分析基础设施服务。Amazon EMR
服务与AWS的其他Web服务实现了高度集成。在 Amazon EMR 上运行的 Hadoop 集群使用 Amazon EC2
实例作为虚拟 Linux 服务器用于主节点和从属节点、将 Amazon S3 用于输入和输出数据的批量存储,并将 Amazon
CloudWatch 用于监控集群性能和发出警报,可以使用 Amazon EMR 和 Hive 将数据迁移到 Amazon
DynamoDB 以及从中迁出。所有这些操作都由启动和管理 Hadoop 集群的 Amazon EMR
控制软件协调安排。当然,这些Web服务的集成,大多是需要单独的使用费用。从EMR目前的定价看,基本上是按照计算的时间来计算费用,具体价格可以在官网查询到。
BigQuery是Google基于Dremel和Hadoop集群所提供的大数据分析云服务。BigQuery允许用户上传他们的大数据集到谷歌的存储中,开发者可以使用BigQuery来运行类SQL语句对大数据集进行查询和交互式分析。用户不但能将BigQuery用于自身业务分析,还能在BigQuery的基础上开发对外的商业大数据分析服务,例如法国一家公司We
Are Cloud就在BigQuery的基础上提供面向中小企业的云大数据分析服务。BigQuery的服务也是收费的,每月每1GB数据的存储费用是12美分,实时分析服务每月每处理1GB数据收费3.5美分,每月前100GB的实时数据分析免费。
云计算带来的大数据分析的便捷性是非常明显的,用户不必购买和搭建自身的大数据技术基础设施,虚拟化服务器集群的配置和管理将更加方便灵活,用户只需直接提供数据和分析需求来获得数据分析的结果。虽然目前的服务费用偏高,但大数据分析云服务是必然趋势!国内的阿里巴巴、新浪等公司已经坐不住,他们积极为此努力着。
本文部分内容节选自北京赛智时代信息技术咨询有限公司(CIOManage咨询)的《2013-2014年中国互联网行业大数据应用年度研究报告》。
新浪官方微博:@赛智时代 欢迎关注!
企业网站:http://www.ciomanage.com
加载中,请稍候......