加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

大数据应用:大数据与小数据的辩证

(2014-01-13 08:00:00)
标签:

it

大数据应用

分类: 信息化

     我们权且把与大数据应用相对应的传统IT应用称为“小数据应用”。可以说,小数据应用有三个特点:一是处理的数据量是TB级以下的,二是所采用的技术是建立在现在的文件系统、编程框架、数据库和结构化查询语言(SQL)、数据仓库等,三是数据分析模型的目的是探索特定小数据集的统计分析结果。

    大数据应用,与小数据应用相对应,也有三个特点:一是处理的数据是大体量(TB级以上)、结构类型复杂(非结构化为主)、数据变化快;二是所采用的技术是分布式技术,包括分布式文件系统、分布式计算框架、分布式存储和分布式查询分析等,三是数据分析模型是探索大量数据中相关性的统计学分析模型。这与小数据应用所处理的数据量、数据处理技术和分析模型可能是完全不同的。

    大数据应用集中体现在“大”,要解决这个难题,所采取的处理策略是“大而化之,分而治之”。数据体量大,就把它分解成一个个小块,每个节点去处理一个或几个小块,各个节点的处理结果再汇总成大数据的结果。经过分解和汇总,大数据最终的分析结果就变成了小数据。其实,对大数据分析人员来说,真正有价值的就是这部分小数据分析结果。所以说,大数据的价值密度是很低的,真的像大海捞针,也就更需要大量计算机的帮忙。也正是计算机技术,尤其是计算能力和分布式计算技术的快速发展,才使得大海捞针不再是一次愚蠢的行为,才让人们有机会去开发大数据的“矿产资源”。

    小数据在数量上的日积月累,或者经过复杂的结构组合,又成为大数据。“物极必反,反而动之”,就这样,在大与小的转化中,数据的潜在价值被一次次挖掘出来,数据被更多人分享和利用。这就是大数据与小数据的辩证关系。所以,有人说,这是一个大数据的时代,也是一个小数据的时代。

 

     新浪官方微博:@赛智时代

个人微博:@赵刚

赛智时代公司网站:http://www.ciomanage.com

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有