加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

【初稿连载】《大数据》第一章概述(二)

(2012-11-07 09:06:10)
标签:

大数据

公司估值

投资

管理

it

分类: 大数据

云计算,再一次改变了数据的存储和访问方式。之前,数据大多分散保存在每个人的个人电脑中,每家企业的服务器中。云计算,尤其是公用云计算,把所有的数据集中存储到“数据中心”,也即所谓的“云端”,大家通过浏览器或者专用应用程序来访问。一些大型的网站,通过提供基于“云”的服务,积累的大量的数据,成为事实上的“数据中心”。“数据”是这些大型网站最为核心的资产。他们不惜高昂的费用,来保管这些数据,付出巨大的努力,以便于让大家更快的访问数据。谷歌公司甚至在购买单独的水力发电站,为其庞大的数据中心,提供充足的电力。根据一些公开资料显示,Google在全球分布着大约有36个数据中心。下图是谷歌位于爱荷华州的数据中心。

中国这几年各地兴起建设云计算基地的风潮,客观上为“大数据”的诞生准备了必备的储存空间和访问渠道。各大银行、电信运营商、大型互联网公司、政府各个部委都拥有各自的“数据中心”。银行、电信、互联网公司都绝大部分都已经实现了全国级的数据集中任务,部委数据条条块块分割的现象比较严重。

物联网是另一个信息技术领域的热词。物联网究其本质是传感器技术进步的产物。遍布大街小巷的摄像头,是大家可以直观感受到的一种物联网形态。事实上传感器几乎无处不在,监测大气的温度、压强、风力,监测桥梁、矿井的安全,监测飞机、汽车的行驶状态。一架军用战斗机上的传感器,多达数千个。现在大家常用的智能手机中,就包括重力感应器、加速度感应器、距离感应器、光纤感应器、陀螺仪、电子罗盘、摄像头等各类传感器。这些不同类型的传感器,有些无时无刻不在产生大量的数据。某些数据被持续的收集起来,成为大数据的重要来源之一。

社交网络是互联网发展史上的又一个重要的里程碑。它把人类真实的人际关系完美的映射到互联网空间,并借助互联网的特性而大大升华。广义的看,社交网络使得互联网具备某些人类的特质,譬如“情绪”。人们分享各自的喜怒哀乐,并相互传染传播。社交网络为大数据带来一类最具活力的类型,人们的喜好和偏爱。更重要的,我们还知道在社交网络中,如果利用网民的关系链,传播这些喜好和偏爱。这为研究消费者行为打开了另一扇方便之门。如果我们深入的分析社交网络,就会发现,大型的社交网络平台,事实上构成了以“个人”为枢纽的不同的数据的集合。借助“分享”按钮,人们在不同网站上的购物信息、浏览的网页都可以“分享”的社交网络上。想想上文提到的雪地上的脚印,社交网络把网民在不同网站上留下的“脚印”链接起来,形成完整的行为轨迹和“偏好”链。

 

 

云计算、物联网、社交网络的兴盛和繁荣,产生了大量的、各种各样的数据。全球手机用户超过46亿;截止到2011年,20亿互联网用户;2005年仅有13亿个RFID标签,但是到2010年RFID标签数量超过了300亿;2006年资本市场的数据比2003年增长了1750%;新浪微博上每天上传的微博超过1亿条;Facebook每天处理10T的数据;世界气象中心积累了220T的Web数据,9P其他类型数据……。苹果公司在ipad mini发布会上,公布了一组运营数据:其中 iMessage 功能目前每秒为用户传递28000条信息,iCloud 已经为用户提供了总计1亿多份的文档,GameCenter 的账号创建数达到了1亿6000万个目前,iOS 应用总数突破70万,支持 iPad 的应用则达到了27.5万。苹果 AppStore 的应用下载量突破350亿次大关,通过分成付给应用开发商的分成总额已达65亿美元。iBooks 中的图书总数已达150万册,下载量也超过了4个亿。

“量”的积累,终于引起“质”的飞跃。大数据的概念应运而生。

麦肯锡(美国首屈一指的咨询公司)是研究大数据的先驱。在报告《Big data: The next frontier for innovation, competition,and productivity》中给出的定义是:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。但他同时强调,并不是说一定要超过特定TB值的数据集才能算是大数据。

国际数据公司(IDC)从大数据的四个特征来定义,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)和巨大的数据价值(Value)。

亚马逊(全球最大的电子商务公司)大数据科学家John Rauser给出了一个简单的定义:大数据是任何超过了一台计算机处理能力的数据量。(Big data is “ any amount of data that’s too big to be handled by one computer”.)

看了这些定义,估计大家印象最深的,就是“大”字。诚然“大”的确是大数据的一个重要特征但远远不是全部。我们在调研多个行业后,给出了自己的定义。大数据是“在多样的或者大量数据中,迅速获取信息的能力”。前面三个定义都是从大数据本身出发,我们的定义更关心大数据的功用。它能帮助大家干什么?在这个定义中,重心是“能力”。大数据核心能力,是发现规律和预测未来。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有