《大数据时代的历史机遇》连载(11)大数据的定义和特征(3)

标签:
it |
第一章 大数据概述
第二节 大数据的定义和特征(3)
数据的多样化
电影《黑客帝国》中,主人公尼奥吞下那颗蓝色的小药丸后,发现原来他生活中一切的一切,包括他的工作、伙伴,高楼大厦、天空、大地,甚至喜、怒、哀、乐;都是数字化的幻像。真实的物理世界当然不像电影那样天马行空,但在许多领域的确朝高度数字化的方向演进。
譬如,那些高楼大厦,利用三维建模技术,形成了包含设计、施工、维护等综合信息的建筑信息模型。在消费者眼中,建筑信息模型呈现出来漂亮、壮观,让人们不得不掏出钱来埋单的效果图;在房地产商老板眼中,建筑信息模型则清楚地告诉他们整个过程应该花多少钱;在设计师眼中,建筑信息模型就是各种各样的设计图的综合,利用它可以方便地调整管线走向、通风的设计等;而在工人眼中,建筑信息模型这就是施工图。对于消防部门不用等到完工,通过建筑信息模型就能评估建筑的消防效果和做出人群疏散的动态模拟;也就是说,建设一栋大楼的方方面面都可以是数字化的。
人们日常工作中接触的文件、照片、视频,都包含大量的数据,蕴含大量的信息。这一类数据有一个共同的特点,大小、内容、格式、用途可能都完全不一样。以最常见的Word 文档为例,最简单的Word 文档可能只有寥寥几行文字,但也可以混合编辑图片、音乐等内容,成为一份多媒体的文件,来增强文章的感染力。这类数据通常称为非结构化数据。
与之相对应的另一类数据,就是结构化数据。这类数据大家可以简单地理解成表格里的数据,每一条都和另外一条的结构相同。大家每月都能领到工资条,每个工资条结构都是一样的,当然里面的工资和缴纳的个税、保险不同。每个人的工资条依次排列到一起,就形成了工资表。利用计算机处理结构化数据的技术比较成熟,从事会计、审计等工作的人,利用Excel 工具很容易进行加减乘除、汇总、统计之类的运算。如果进行大量的运算,一些商业数据库软件就派上用场,它们专门用于存储和处理这些结构化的数据。
但不幸的是,企业中和人们日常接触到的数据绝大部分都是非结构化的。有的咨询机构认为非结构化数据占企业总数据量的80%,也有机构认为占95%,总之,没有权威、准确的统计。如何像处理结构化数据那样,方便、快捷地处理非结构化数据,是信息产业一直以来的努力方向之一。在这个领域,信息业是走了不少弯路的。起初人们借助结构化数据处理的成果,把非结构化数据也用传统的数据库(基于关系型的数据库)来处理。非结构化数据的一大特点就是龙生九子,各各不同,硬要套到一个模子里面来,结果是费力不讨好。由是人们一度认为大量的非结构化数据是难以达成的。
幸运的是,谷歌公司在为公众提供页面搜索服务的同时,顺便解决了大量网页、文档这类数据的快速访问的难题,成为大数据技术的先驱。雅虎公司的一个开发小组,利用谷歌的成果成功地开发出大数据处理的一套程序框架,这就是众所周知的Hadoop。目前,这个领域非常活跃,发展可谓日新月异。
这些公司的实践,让大家面对其他各类的非结构化数据这一处理难题重建信心,如高清图像、视频、音频等的处理技术都已驶入了快车道。
另外,社交网络上的表现人们情绪的数据日益丰富。例如,[笑脸]、[鼓掌]、[握手]、[愤怒]、[纪念]等代表人们心情的标准化图释的大量使用,无疑表达了人们对某一事件的总体情绪,可能昭示线下会发生某些行为。
大数据的价值特征
7·21 北京暴雨之夜,微博成了救灾的明星。一些好心人在微博上公开自己公司地址,方便大家去躲雨和休息。大家依据微博实时了解哪个地方出现了拥堵,哪个地方需要救援。当然救灾不力,应对失当是另外一回事儿。短信、电话都难以描述精确的地址,尤其是当人们焦虑和着急的时候,但是一条微博中可以同时包括人物、时间、地点三个要素,打开微博附加的坐标数据,就可以在地图上迅速定位,为及时救灾提供了方便。在这个例子中,人们看到融合数据的价值。
再如视频监控的例子。银行、地铁等一些敏感的部门或者地点,摄像头都是24 小时运转,会产生大量视频数据。一般情况下,这些视频数据非常枯燥、乏味,并不会引人注目。但是如果恰巧拍到有图谋不轨的人,那么这一帧图像对公安人员来讲,就是非常有价值的了。问题是我们无法在事前知道哪一帧会有用,只好把所有的视频数据都保存下来,甚至保存了一年的数据,只有那一秒对破案有用。但是在研究人类行为的社会学家眼中,这些视频可能就是难得的第一手资料,也许可以借此窥探人类的某些行为模式。
笔者曾经读过一篇日本的短篇小说,情节惊悚。一位年轻貌美却家境贫寒的姑娘,有幸得到一份高薪的工作,照顾一个垂死的病人。奇怪的是,院长要求姑娘必须每时每刻都穿着一件电子背心。医院大楼空空荡荡,令人害怕。姑娘为了养家,不得不忍受大楼里每晚都发生的恐怖事件。终于在一件极端骇人听闻的事件中,姑娘被活生生吓死。这时候,大楼变得灯火通明,病人脱掉伪装,取走姑娘身上的电子背心,高价卖给神秘的买家。原来电子背心中记录了一颗健康的心脏,在高兴、害怕、惊恐,以至于骤然停止跳动的全部数据。这可能是笔者读过的第一篇恐怖小说,至今仍记忆犹新。
现在人们获取医疗数据,却变得相当简单。只要在手腕上佩戴一块类似电子表的仪器,就能随时随地把脉搏、体温、血压等数据,源源不断地传输到医疗中心。这些数据除了可以检测人们的健康以外,更是医疗保险公司的最爱。保险公司的精算师,根据这些数据可以开发新的保险产品,或者优化他们的现有产品组合。
从上面各种事例中,可以得出以下结论:第一,数据是无价之宝;第二,价值虽有,但确如沙滩中的黄金;第三,数据融合的价值,要远远大于种类单一的数据价值。在研究各行各业数据应用时,笔者发现很多公司坐拥金山,却是苦苦挣扎。他们没有认识到自身的数据中正蕴涵着业务的重生之道。最早重视数据价值的是互联网公司,在大数据研究和应用方面领风气之先。但是,大数据并非仅仅是大公司的专利,它更多的是看待世界、产业的观念和视角。大公司自然可以合纵连横,跨界扩张;小公司也可以静水流深,别具高格。关键是你怎么看。
----------------