《大数据时代的历史机遇》连载(10)大数据的定义和特征(2)

标签:
it |
第一章 大数据概述
第二节 大数据的定义和特征(2)
“过去我认为我的工作就是追捕罪犯,而现在对这项工作有了全新的认识,我们分析犯罪数据,识别犯罪模式,并部署警力,帮助美国部分城市重大犯罪率降低了30%。终结犯罪,在案发之前。”这是IBM 公司的一则广告,宣传利用大数据构建智慧的地球。
“2008 年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货出去以后再获得数据,而我们提前半年时间从询盘上就推断出世界贸易发生变化了。”通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会维持一个相对的比例。统计历史上所有买家、卖家的询价和成交数据,可以形成询盘指数和成交指数,这两个指数是强相关的。询盘指数是前兆性的,前期询盘指数活跃,就会保证后期一定的成交量。所以,当马云观察到询盘指数异乎寻常的下降后,自然就可以推测未来成交量的萎缩。这种统计和分析,如果缺少大数据技术的支持,是难以完成的。这次事件,马云提前呼吁、帮助成千上万的中小制造商准备过冬粮,从而赢得了崇高的声誉。
中国建设银行的电子商务金融平台——“善融商务于2012 年6 月28 日正式开业。官方的宣传是“善融商务”是建设银行顺应电子商务发展潮流,结合传统金融服务优势和新兴电子商务服务应用而搭建的全流程、综合性的电子商务服务平台。”据说建行内部推进电子商务的力度非常大,分行考核严厉,甚至亏本也要把小商家搬到网上。银行建立电子商务交易平台,听起来像不务正业,其实是醉翁之意不在酒。银行需要那些小商家的经营数据,来预测商家的贷款需求和还款能力,从而大幅降低小额借贷风险。建行此举,不论成功与否,都足以证明建行高层深刻地理解了大数据的重要性和其惊人的预测能力。这种能力,对建行而言,就意味着低风险,高收益,是每家金融机构都梦寐以求的境界。常常说富贵险中求,传统经营一般是高风险,高收益;不料有了大数据在手,就能低风险,高收益,难怪金融机构趋之若鹜。如果金融机构再不重视大数据的潜在价值,行将成为21 世纪的恐龙,不复往日的荣光。
数据大爆炸
截止到2011 年,互联网用户数已达到20 亿; RFID 标签在2005 年的保有量仅有13亿个,但是到2010 年这个数字超过了300 亿;2006 年资本市场的数据比2003 年增长了17.5倍;日前新浪微博上每天上传的微博数超过1 亿条;Facebook 每天处理10TB 的数据;世界气象中心积累了220TB 的Web 数据,9PB 其他类型数据……
根据国际数据公司(IDC)的《数据宇宙》报告显示:2008 年全球数据量为0.5ZB,2010 年为1.2ZB,人类正式进入ZB 时代。更为惊人的是,2020 年以前全球数据量仍将保持每年40%多的高速增长,大约每两年就翻一倍,这与IT 界人尽皆知的摩尔定律极为相似,姑且可以称之为“大数据爆炸定律”。预计2015 年全球数据量将达到7.9ZB,2020 年将突破35ZB,是2008 年的70 倍、2011 年的29 倍,如图1-11 所示。
http://s2/mw690/537e497atd9936d249911&690
同时,根据互联网数据中心的《中国互联网市场洞见:互联网大数据技术创新研究2012》报告显示:截至2011 年年底,中国互联网行业持有的数据总量已达到1.9EB,预计2015 年该规模将增长到8.2EB 以上。
人类社会的数据量在不断刷新一个个新的量级单位,已经从TB、PB 级别跃升至EB、ZB 级别。然而,35ZB、8.2EB 究竟是一个什么样的概念呢?为此,首先了解下面几组关于数据衡量单位的公式:
1B = 8 bit
1KB = 1024 Bytes ≈ byte = 1000 byte
1MB = 1024 KB ≈ byte = 1 000 000 byte
1GB = 1024 MB ≈ byte = 1 000 000 000 byte
1TB = 1024 GB ≈ byte = 1 000 000 000 000 byte
1PB = 1024 TB ≈ byte = 1 000 000 000 000 000 byte
1EB = 1024 PB ≈ byte = 1 000 000 000 000 000 000 byte
1ZB = 1024 EB ≈ byte = 1 000 000 000 000 000 000 000 byte
1YB = 1024 ZB ≈ byte = 1 000 000 000 000 000 000 000 000 byte
一本《红楼梦》共有87 万字(含标点),每个汉字占两个字节,即1 个汉字=2B,由此计算1EB 约等于6626 亿部红楼梦。美国国会图书馆是美国四个官方图书馆之一,也是全球最重要的图书馆之一,截至2011 年4 月,藏书约为1.5 亿册,收录数据235TB,1EB约等于4462 个美国国会图书馆的数据存储量。
----------------