标签:
it |
第一章 大数据概述
第一节 大数据产生的历史背景(2)
互联网诞生
互联网的出现,在科技史上可以比肩“火”与“电”的发明。这个伟大的发明同样是由军事目的驱动的。计算机在军方应用得越广泛,计算机上保存的军事机密就越多。人们担心如果保存重要军事机密数据的主要计算机被摧毁的话,很可能就会输掉整个战争,于是,推动计算机之间互相传递数据并互为备份的通信机制被提上日程。1969 年,把分属于不同大学的四台计算机互相连接起来,这就是最早的互联网雏形。
互联网把每个人桌面上的计算机连接起来,改变了人们的生活,成为大家获取各类数据的首要渠道。通过互联网获取数据的模式可以被简单地抽象为“请求”加“响应”的模式。理解这种获取信息的方式,有助于理解“大数据”的价值,所以我们多花些笔墨把这个模式解释清楚。
互联网上的“脚印”
用收音机听广播,或者用电视机看电视节目,都是“广播”加“接收”的模式。不管有没有电视机在接收信号,广播塔总是在发送电视节目信号。随时打开电视机,随时就能收看电视节目。在“广播”加“接收”模式中,广播塔是不知道有谁在接收节目的,如图1-3 所示。
http://images.51cto.com/files/uploadimg/20130322/1514250.jpg
“请求”加“响应”模式则不同,如果客户端(所有接入互联网的设备、软件等)不主动要求,服务器端是不会发送任何数据的,如图1-4
所示。互联网应用协议基本上都是这种模式。当然也有“广播”加“接收”模式的协议,但是不常用。每一次访问请求其实就是一次鼠标点击操作,服务器的日志中,忠实地记录下来每个人访问的时间、请求的命令、访问的网址等数据。这些访问记录,就像人们在雪地上行走留下的脚印一样,“脚印”连成一串,构成了人们在互联网上的“行为轨迹”。想一想猎人是怎样通过追踪脚印捕获猎物的,就会明白这些“轨迹”中蕴含着巨大的价值。所以各类服务器上的日志就是一种非常重要的大数据类型。
http://images.51cto.com/files/uploadimg/20130322/1514251.jpg
曾经有制作服装的公司想要调查顾客的购买意愿。需要统计顾客拿起了哪件衣服?试穿了哪件衣服?在专卖店逗留了多长时间?这就需要安装摄像头,要选样本,可能花费上亿的资金。要想省钱的话其结果可能会失去参考价值。如果在网上做同样的事情,成本近乎为“零”。大家可以想想,在淘宝网或者京东商城的主页上,每一个网页都相当于一家店铺,打开这个网页就等于进入了店铺;点击了衣服,相当于顾客拿起衣服仔细端详;把衣服放到收藏夹,可以理解为试穿;在实体店中的顾客行为几乎被完整地映射到网页上。不同的是,互联网忠实地记录下“顾客”在“店”里停留的时间、关心的品类;此外,顾客和销售员的对话、顾客与顾客之间的对话,也被忠实地记录、保存。互联网企业做与那家制衣公司同样的调查,成本近乎为“0”。
http://images.51cto.com/files/uploadimg/20130322/1514252.jpg
----------------