《大数据时代的历史机遇》连载(9)大数据的定义和特征(1)

标签:
it |
第一章 大数据概述
第二节 大数据的定义和特征(1)
提要:
1.未来的不确定性是人类产生恐惧的根源之一,也是各类组织最为头痛的问题。大数据技术让我们看到解决未来预测问题的一丝曙光。
2.大数据四个典型的特征:第一,数据量巨大;第二,数据类型多样;第三,数据中富含价值;第四,必须在尽可能短的时间内发掘出价值。
3.尽管本节重点介绍大数据的四个特征,但是并非只有数据量大,才能称为大数据。我们更看重的是“快速的从各类数据中获得信息的能力”。
麦肯锡(美国首屈一指的咨询公司)是研究大数据的先驱。在其报告《Big data: The nextfrontier for innovation, competition,and productivity》中给出的大数据定义是:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。但它同时强调,并不是说一定要超过特定TB 值的数据集才能算是大数据。
国际数据公司(IDC)从大数据的四个特征来定义,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)。
亚马逊(全球最大的电子商务公司)的大数据科学家John Rauser 给出了一个简单的定义:大数据是任何超过了一台计算机处理能力的数据量。
维基百科中只有短短的一句话:“巨量资料(big data),或称大数据,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯”
大数据是一个宽泛的概念,见仁见智。上面几个定义,无一例外地都突出了“大”字。诚然“大”是大数据的一个重要特征,但远远不是全部。笔者在调研多个行业后,给出了自己的定义:大数据是“在多样的或者大量数据中,迅速获取信息的能力”。前面几个定义都是从大数据本身出发,我们的定义更关心大数据的功用。它能帮助大家干什么?在这个定义中,重心是“能力”。大数据的核心能力,是发现规律和预测未来。
发现规律,预测未来
任何行为,皆有前兆。但在现实世界中,缺少实时记录的工具,许多行为看起来是“人似秋鸿有来信,事如春梦了无痕”。在互联网世界则完全不同,是“处处行迹处处痕”。要买商品,必先浏览、对比、询价;要搞活动,必先征集、讨论、策划。互联网的“请求”加“响应”机制恰恰在服务器上保留了人们大量的前兆性的行为数据,把这些数据搜集起来,进一步分析挖掘,就可以发现隐藏在大量细节背后的规律,依据规律,预测未来。收集分析海量的各种类型的数据,并快速获取影响未来的信息的能力,就是大数据技术的力所在。
1993 年,《纽约客》刊登了一副漫画,标题是“互联网上,没有人知道你是一条狗”,如图1-10
所示。据说作者彼得·施泰纳因为此漫画的重印而赚取了超过5
万美元。彼时关注互联网社会学的一些专家,甚至担忧“计算机异性扮装”而引发的社会问题。譬如,同性恋和恋童癖可能会借助互联网而大行其道。
http://s15/mw690/537e497atd97f1bb4f6fe&690
图1-10:
20 年后,互联网发生了巨大的变化,移动互联、社交网络、电子商务大大拓展了互联网的疆界和应用领域。人们在享受便利的同时,也无偿贡献了自己的“行踪”。现在互联网不但知道对面是一条狗,还知道这条狗喜欢什么食物、几点出去遛弯、几点回窝睡觉。人们不得不接受这个现实,每个人在互联网进入到大数据时代都将是透明性存在的。
事实上,对于未来的不确定性是人类产生恐惧的根源之一,也是各类组织最为头痛的问题。大数据技术让人们看到解决未来预测问题的一丝曙光。通过利用大数据技术,可以预测预测自然、天气的变化,预测个体未来的行为,甚至预测某些社会事件的发生。它会让我们的生活更为从容,让决策不再盲目,让社会更加高效的运转。这就是大数据技术带给我们的好处。全球复杂网络权威巴拉巴西认为,人类行为93%是可以预测的。我的确不知道这位老先生是怎么计算出来93%这个数字的,但大数据可以预测未来是显而易见的,这是首个使人类具备了预测短期未来的技术。
听起来似乎很玄妙,大数据不就是算命先生么?
其实,或多或少,人们都具备预测的能力。譬如,儿子跟小伙伴们疯玩,我知道他肯定在7 点之前会回家,因为他饿了。再如,家乡流传的很多谚语,其中一句“八月十五云遮月,正月十五雪打灯”,说明大自然就有许多规律性的东西。估计现在的科学也没有办法解释几乎半年跨度内气象间的因果关系,但是几千年的观察和积累,却发现了它。自然、社会、商业无不服从某些规律,大国兴衰、王朝更替亦有规律可循。只是过去囿于技术条件人们无法记录下造成某件事情发生的先兆数据,无法去计算其中的因果关系。这些规律要么被神秘化,要么被庸俗化。
任何事情的发生,都会有蛛丝马迹的前兆表露出来。如果我们不去关注一支股票的行情走势,就不会去买卖这支股票;如果我们从不去询问某件商品的价格,也很难产生购买行为;如果事先没有联络沟通,人们就很难聚在一起;如果没有闷热的天气,似乎就没有透心凉的大雨。关于地震前种种异象,更是被许多书籍、文章大肆渲染。
假定有一种技术可以记录下所有这些先兆,人们就获得了未卜先知的能力。利用大数据技术,能够广泛采集各种各样的数据类型,进行统计分析,从而预测未来。大数据影响之深远,波及之广泛,远非一般的信息技术可比。
----------------