大数据应用：大数据与小数据的辩证_赵刚

http://blog.sina.com.cn/u/1252330317

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

大数据应用：大数据与小数据的辩证

(2014-01-13 08:00:00)

标签：

it

大数据应用

分类：信息化

我们权且把与大数据应用相对应的传统IT应用称为“小数据应用”。可以说，小数据应用有三个特点：一是处理的数据量是TB级以下的，二是所采用的技术是建立在现在的文件系统、编程框架、数据库和结构化查询语言(SQL)、数据仓库等,三是数据分析模型的目的是探索特定小数据集的统计分析结果。

大数据应用，与小数据应用相对应，也有三个特点：一是处理的数据是大体量（TB级以上）、结构类型复杂（非结构化为主）、数据变化快；二是所采用的技术是分布式技术，包括分布式文件系统、分布式计算框架、分布式存储和分布式查询分析等，三是数据分析模型是探索大量数据中相关性的统计学分析模型。这与小数据应用所处理的数据量、数据处理技术和分析模型可能是完全不同的。

大数据应用集中体现在“大”，要解决这个难题，所采取的处理策略是“大而化之，分而治之”。数据体量大，就把它分解成一个个小块，每个节点去处理一个或几个小块，各个节点的处理结果再汇总成大数据的结果。经过分解和汇总，大数据最终的分析结果就变成了小数据。其实，对大数据分析人员来说，真正有价值的就是这部分小数据分析结果。所以说，大数据的价值密度是很低的，真的像大海捞针，也就更需要大量计算机的帮忙。也正是计算机技术，尤其是计算能力和分布式计算技术的快速发展，才使得大海捞针不再是一次愚蠢的行为，才让人们有机会去开发大数据的“矿产资源”。

小数据在数量上的日积月累，或者经过复杂的结构组合，又成为大数据。“物极必反，反而动之”，就这样，在大与小的转化中，数据的潜在价值被一次次挖掘出来，数据被更多人分享和利用。这就是大数据与小数据的辩证关系。所以，有人说，这是一个大数据的时代，也是一个小数据的时代。

新浪官方微博：@赛智时代

个人微博：@赵刚

赛智时代公司网站：http://www.ciomanage.com

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：迎接2014新年

后一篇：赛智时代：2014年中国IT市场前瞻

新浪BLOG意见反馈留言板　欢迎批评指正