2011年起,大数据就进入到时尚空间,无论是政府官员、知识精英还是普通百姓都陷入了一派新思潮的海洋,恐慌且兴奋,大家伙儿一致认为又来新东西啦,于是上足了发条,绷绷的转起来。我以为最为得意的要属涂子沛和他的《大数据》,邀请的部门无数,他口吐莲花,到处宣讲大数据可以做什么,书也在西单书店卖的超火。年末,又来了一位老外,舍恩伯格和他的《大数据时代》,更是火上浇油啦,给人们答疑般的讲大数据该怎么做。从做什么到如何做。一会儿炒交通管理,一会儿讲网络营销,讲的都是一些爪哇国的事情,云里雾里的,多少有点不太靠谱阿。
在一片喧闹中,大数据产业园、大数据日、大数据专委会、大数据专业、大数据实验室和各种大数据峰会接二连三,又走了一个流程,还原了过去的套路,圈概念和圈地,立马GDP就挑起来了。也是在当前,这个概念与物联网、云计算发生了碰撞,于是乎大家就抱团取暖,让人们的视觉又呈现了五颜六色起来,神经系统开始了一轮新的紧张。想想,靠网可以产生无穷的消费啊,有淘宝、京东、1号店等,还有各类的电商、网商、还有七七八八的虚体哦。提高消费,拉动经济,这是老美模式下的GDP增长方式啊。
大数据究竟是什么新玩意儿?它相对网络经济来说,只是一个技术层面的事情,它与以前的DB数据库、数据仓库、数据挖掘和BI有什么区别?有人说也就是多了流媒体罢了。好事之人提出了一个数据量的测算,根据公开的资料,IDC对于每年创建和复制的信息数据量做了预测:2011年1.8ZB,2012年2.8ZB,按照每两年翻一番的速度,2020年达到40ZB。无人质疑,这个数据咋算出来的?用摩尔定律吗?方法是什么?哈哈。似乎大家伙都一古脑的用这个数目字,结构化和非结构化的数据,就是一个大体量,就此借以说明大数据的概念,它的迫切性等等。毫无疑问,大数据中静态数据的大体量无疑需要更大的存储配置,就需要存储这一些个数据。动态数据的大体量无疑需要与网络捆绑在一起,要足够宽的带宽才能跑流媒体阿。数据库和网络又赫然映入眼帘了,难道我们需要超大的存储和更快的网络。咂摸一下,很是迷茫。
时下,大数据的确是一种新的数据实践,数据散布在宏观的世界里,充斥在我们的微观的生活空间中,空中有电商开的淘宝网、京东商城、1号店等等。地面上有高速路的交通监控网、社区警示网等等。那么,如何抓取?咋个办法?我以为,当数据形成了一个数据海洋的时候,大家使用工具就可以方便的抽取所需的数据了。否则,若果只是一片一片的水潭,又用什么工具去抽取,性价比划算吗?
确实,有消息称当下非结构化数据的增长占了数据总量的85%以上,这的确会是这样。故此,我以为这个东西对我们来说在相当长的时间里,它依然还要保持那种新鲜的程度,因为我们对它尚处在肌无力状态。老早,北京的街头旮旯里,总有两个涂黑的字“模式”,是阿,我们没有什么有效的手段去分析阿,模型是什么?数据采集如何做?等等。
上上个世纪,我们使用了“中学为体,西学为用”的字样,来变革社会。哈哈,这是一种哲学概念,也是一种悖论。
体,环境也。可以说是数据海洋,形成海洋就需要数据共享,只有我们满世界的按照某种标准做事情,形成行业间、部门间和人与人之间的充分数据共享。当然,网络神经也要足够的宽和快。那么,可以说我们的体就形成了,大数据的时代也就来临了,确切地说我们可以在数据海洋中抓数据了。技术的体是什么?就是所谓的数据共享,架构共享等等,这是一种体。
用,工具也。技术层面也就是数据库、架构、模型和统计方法等等,可以堆砌在一起了吧。难度大吗?
突然脑子里又映像出“中学为体,西学为用”的字样,频闪着,令人晕眩和窒息。
我们用“体、用”做什么?当你在一个完整的体系下,在那种数据海洋中,就是要拉动我们的需求,经过不断的“促逼”派生出新的用,体和用是一种相生相克的过程,精髓就是这些。我们关注大数据,关注它带给我们的业务拓展,带给我们的新需求。
如何建立我们的体?就是说要完成数据共享和架构共享等技术性的工作,也要建立和关注周围生态环境的改善。时长难料啊,不远的时候,你会越来越多的感受到大数据的到来,并更加强烈的希望解决大数据中的问题。
这用,当下,微信、遥感、卫星等等手段,呈现给我们一种精确的过程控制,那种多数据库、统计学和计算机交叉学科来找到数据海洋中样本点的奇异值,解读它,利用它,这也许是一种应用吧。无论何时,我们都还是要关注个体、行业等等的数据状况,这是一种本能。当然,到那个时候,数据采集也还是一种挑战,发现数据的价值,或许又有新的认识?突破?
大数据是一种用而已。但即便今天没有大体量的数据,你也要自觉、客观、全面地测量世界,为未来做准备吧。
总之,大数据与信息消费、统计模型、技术架构的突破等等词语,它们的语境是完全不同的哦,一般确实容易搞到一起,混为一谈。也可能是会有触类旁通的事情发生,谁知道奇迹啊。
加载中,请稍候......