加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

大数据(一)——释义

(2012-01-16 15:04:14)
标签:

bigdata

大数据

股票

互联网

行业观察

it

分类: 行业观察

博客是个好东西,我可以随便写,而不用担心语法或者行文什么的。说清楚就行了。类似对着一群人在演讲,兴之所至、信手拈来。在这种状态下,反而可以说清楚一些貌似深奥的东东。比如说大数据!

路演多轮以后,我总结了一个简明的定义:“在各种各样海量的数据中,快速获取信息的能力”就是大数据。投资者乍听大数据很新鲜,第一个就问大数据是什么?刚开始,我往往先讲讲大数据的几个特征,比如海量、数据类型多、有价值、获取速度快等等,每个特征都举例若干。大家虽然听得津津有味,但是并没有一个简单易懂的定义。在写第二篇大数据报告是,提炼出这个简单易懂的定义。

在这个简明定义中,有五个关键字。各种各样、海量、快速、信息、能力。各种各样是指数据的多样性,尤其强调非结构化的数据,比如图片、视频、日志等等;海量强调数据量大,像facebook一天产生数据量超过大型企业一年产生的数据量;快速指获取有效信息的时效性;信息,指数据中蕴含的价值;能力关注技术方面,如新兴的NoSQL数据库,Hadoop技术架构等等。

所以在认识大数据概念时,不能被“大”这个修饰词误导。信息是大数据中的珍珠, 是其之所以存在的基础。如果大数据中没有蕴含丰富的信息,那么它就不会受到关注;快速是大数据技术区别于传统数据挖掘技术的关键指标之一,也是两代技术的根本分野。“海量”相比“各种各样”而言,我个人认为多样化的数据更能反映大数据的本质。大数据首先处理的是各种各样的数据类型,像视频、图像、日志等等。传统的结构化的数据,处理的对象是相对固定的。

数据量不是很大,比如只有几个T,但是数据的类型很多,对检索的要求很高。这也是大数据的范畴。这个概念清晰了,就可以理解大数据不只是大型网站的专利,小型企业也照样可以玩的有声有色。

我个人很喜欢一款Google本地搜索应用,叫Google Desktop。它的功能就是为本地硬盘所有的文件编制索引,然后全文检索,一秒可得。这对不爱整理文件的懒人来说,可以说是一大福音。我的硬盘上积累了200多G的文件,word、excel、pdf、邮件等等。要记住文件名很难,但是记住过去的某件事情相对容易。譬如我想找电子商务方面的文件,只要在GoogleDesktop中输入“电子商务”四个字,立刻就会把我硬盘上所有和电子商务相关的文档全部列出来。这也是大数据的一个典型应用。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有