【初稿连载】《大数据》 第一章 概述(一)
(2012-11-06 23:27:46)
标签:
大数据投资公司估值it |
分类: 大数据 |
第一章
大数据概述
大数据是“在多样的或者大量的数据中快速获取信息的能力”。
——作者
大数据,事关国家安全、产业兴衰、公司存亡,不可不察。美国政府时隔近20载,继1993年提出“信息高速公路计划”后,再次提出“大数据发展计划”,奥巴马登高一呼,欧日风从,业界震动。旋即,首家“大数据”概念股——splunk在纳斯达克挂牌交易,尚未盈利,上市首日市值40亿美元。
“数”的概念从上古结绳记事的开始,就不离人们生活的左右。数学随着人们在建筑、制造、土地测量等方面的运用逐步发展起来。历史上著名的“韩信点兵”,是数学定律应用于军事的有趣的案例。韩信率领1500人左右的一支军队,让士兵3人一排,多出2人;站5人一排,多出4人;站7人一排,多出6人。韩信立即说出了精确的数字:1049,令军需官们大为惊异。
现代意义上计算机的发明,同样归功于军事的需要。1946年2月14日,由美国军方定制的世界上第一台电子计算机“电子数字积分计算机”在美国宾夕法尼亚大学问世,主要是为了满足计算弹道需要而研制成的。“电子计算机”的称谓的确名副其实,就是为了更快的进行大量数学运算。
但是随着计算能力的飞速提升,电子计算机能够处理的对象,远远超越了“数字”概念,虽然本质上,仍然是对“0”、“1”组成的二进制数字,进行加减乘除等基本的数学运算,但通过丰富多彩的应用软件,展现出处理多种多样的“数据”的能力。数据,包括图形、文字、视频、语音等都是“0”和“1”这两个二进制的“数字”通过不同的编码方式组合在一起的产物。应用程序变成人们和这些“0”“1”串打交道的媒介。不同的应用程序,产生不同的“数据”类型。
互联网的出现,是科技史上,可以比肩“火”与“电”的发明。这个伟大的发明同样是由军事目的驱动的。计算机在军方用的越广泛,计算机上保存的军事机密就越多。人们担心如果保存有重要军事机密数据的主要计算机被摧毁的话,很可能就会输掉整个战争。于是,推动计算机之间互相传递数据并互为备份的通讯机制提上日程。1969年,把分属于不同大学的四台计算机,互联链接起来。这就是最早的互联网雏形。
互联网把每个人桌面上的计算机连接起来,改变了人们的生活,成为大家获取各类数据的首要渠道。通过互联网获取数据的模式可以简单的抽象为“请求”加“响应”的模式。理解这种获取信息的方式,有助于理解“大数据”的价值。所以多花些笔墨,把这个模式说清楚。
用收音机听广播,或者用电视机看电视节目,都是“广播”加“接收”的模式。不管有没有电视在接收信号,广播塔总是在发送电视节目信号。随时打开电视,随时就能收看电视节目。在“广播”加“接收”模式中,广播塔是不知道有谁在接收节目。
“请求”加“响应”模式,则不同。如果客户端(所有接入互联网的设备、软件等)不主动要求,服务器端是不会发送任何数据的。互联网应用协议,基本上都是这种模式。当然也有“广播”加“接收”模式的协议,但是不常用。每一次访问请求,其实就是一次鼠标点击操作。服务器的日志中,忠实的记录下来每个人访问的时间、请求的命令、访问的网址等数据。这些访问记录,就像人们在雪地上行走留下的脚印一样,“脚印”连成一串,构成人们在互联网上的“行为轨迹”。想一想猎人是怎么追踪脚印捕获猎物的,就会明白这些“轨迹”中蕴含巨大的价值。服务器日志,是非常重要的一种大数据类型。