加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

大数据的困惑

(2012-08-28 18:26:46)
标签:

杂谈

海量数据

数据存储

结构化查询语言

大数据困惑分几步走

分类: 较真儿

    日前,Polo来了,进行了一番的海量数据方面的布道。把具体的统计业务与时下里的大数据概念扭到了一起,咋一听,有一些子的新奇。这大数据,在IT界也流行了一段时间了,把它翻译到行业里来到是第一次,我以为是,煞是好听。

    这大数据在IT里讲是一个什么东西?它的来源多种多样的,一般都讲它是基于互联网的调查,手机使用过程中留下的信息,以及行政管理记录(比如道路收费系统、医院管理系统、社区管理系统、超市商品进出管理等)。且具有一个快字,可以及时获取,抬头不见低头见;二是多字,数量铺天盖地;三是便宜。用洋文就是四个V的特性::数量(V)、速度(V)、多样性(Variety)、波动性(Variability)。即数量多,产生速度快,形式多样,不易整合。就像海洋一般的涌动着,滔滔不绝没有什么边际。官儿话讲用四个维度来固定它:容量、种类和传输速度、偶合度。哈哈,这也是时下的思维格式,非结构化是什么?用牛顿的理论还是爱因斯坦的理论,究竟谁来解释?新的生命吗?新的理论吗?

    IT中,容量一般为PB级的数据为大数据的起点;种类一般是指多种不同的数据和文件类型,如各种声音和电影文件、图像、文档、地理定位数据、网络日志和文本字符串等等;传输速度一般是指数据传播的速度很快,要求捕捉有用数据的速度也很快,这同时即需要有一定的工作模式,也需要有高速数据的储存能力,方可以利用好这些数据。偶合度呈现松散状态,且不容易整合。干什么用啊?仅仅是存着吗?在这个流体里面,还是可以抓取点有用的东西,生成个新的有用的数据,诞生个新的行业,可以的嘛。

大数据在IT中的生存环境是什么

    一是有为一个为大数据工作的开源软件框架Hadoop,它的由来是自Google的技术加雅虎的理念丛实践中产生出来的。在Apache中,它是专门设计来解决大规模分布式数据存储,分析和检索任务。二是NoSQL,这意味着非结构化查询语言,因为这些类型的数据存储提供特定领域的访问和查询技术,除了SQL或类似SQL接口。具体讲NoSQL这一类的技术,包括关键值存储、面向文档的数据库、图形数据库、大表结构和缓存数据存储。具体的本地存储的数据访问方法提供了一个丰富的、低延时的方法,通常是通过专有接口。三是大规模并行处理(MPP)数据存储是解决大数据存储和管理。总之,有框架、语言、大规模处理器和存储这四个条件阿。

大数据孕育着新的业务逻辑吗

    大家知道,借用IT之语境,全球上网的人数是以亿万计,在线交易额也是呈现几何般增长,人们的需求使得各种类型的管理系统没有穷尽,数据呈爆炸般的样子。如何从这些数据里面搞出有用的数据哪?看来需要有一种理论或算法,把这些非结构化的数据实时的抽取出来,变成有用的信息,用一种惯常的结构化模型展现在人们的面前,这需要有新的理论支撑。总之,框架、需求和物理环境都有了,只缺少一种理论啦。

大数据的目前的窘境

    非结构化数据。单一“非结构化”是不准确的,应称为“多层结构”或“多模”,因为它可以包含文本字符串、所有类型的文件、音频和视频文件、元数据、网页、电子邮件、社交媒体供稿、表格数据等等。它们的共同点是不知道其数据架构或不知道在这些数据被捕获和存储时如何定义。眼下,按照传统的理论讲,海量数据尚不能取代传统数据,它还不是可靠的数据来源,具有总体不确定性以及不可重复试验的局限性。因此,对海量数据的使用需要甄别,进行必要的筛选、分类并加以分析,必须评估其真实性。

大数据具有强烈的社会属性

    时下里,在国内外交通管理、互联网搜索、医疗保障、安全管理和卫星定位系统等领域广泛应用了这些技术。它们展现给大家的是实时的人与人之间的数据交流情况,你不去想,不代表它不存在噢。互联网的google、amazon、baidu、Facebook、sina、京东、QQ等服务所产生的数据,就需要一种全新的解决方案。人们已经逐渐习惯了电商,它们的交易量远运的大于传统的商家,它还改变了人们的生活习惯和生存方式。

我总是依稀感到,本世纪末,传统计算机后台系统展现的东西,那些个频数关系、那些个关联关系,将会成为未来的检索、抓取数据的工具,计算机系统员将会个个都是数据分析师。

搞大数据在中国需要分几步走

    我看要三步走啊,一是搞好数据的共享;二是云计算,设施的共享;三是利用数据产生出新的经济价值,新的业务应用。

大数据的未来

    海量数据研究已成为全球统计数据应用和开发的新趋势,并逐渐发展成为一门新的学科。将“海量数据”变为“可用数据”是我们需要认真研究的新课题。同时,未来一定孕育着新的理论和新的实践方式。

0

阅读 收藏 喜欢 打印举报/Report
后一篇:再吃隆福寺
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有