我们权且把与大数据应用相对应的传统IT应用称为“小数据应用”。可以说,小数据应用有三个特点:一是处理的数据量是TB级以下的,二是所采用的技术是建立在现在的文件系统、编程框架、数据库和结构化查询语言(SQL)、数据仓库等,三是数据分析模型的目的是探索特定小数据集的统计分析结果。
大数据应用,与小数据应用相对应,也有三个特点:一是处理的数据是大体量(TB级以上)、结构类型复杂(非结构化为主)、数据变化快;二是所采用的技术是分布式技术,包括分布式文件系统、分布式计算框架、分布式存储和分布式查询分析等,三是数据分析模型是探索大量数据中相关性的统计学分析模型。这与小数据应用所处理的数据量、数据处理技术和分析模型可能是完全不同的。
大数据应用集中体现在“大”,要解决这个难题,所采取的处理策略是“大而化之,分而治之”。数据体量大,就把它分解成一个个小块,每个节点去处理一个或几个小块,各个节点的处理结果再汇总成大数据的结果。经过分解和汇总,大数据最终的分析结果就变成了小数据。其实,对大数据分析人员来说,真正有价值的就是这部分小数据分析结果。所以说,大数据的价值密度是很低的,真的像大海捞针,也就更需要大量计算机的帮忙。也正是计算机技术,尤其是计算能力和分布式计算技术的快速发展,才使得大海捞针不再是一次愚蠢的行为,才让人们有机会去开发大数据的“矿产资源”。
小数据在数量上的日积月累,或者经过复杂的结构组合,又成为大数据。“物极必反,反而动之”,就这样,在大与小的转化中,数据的潜在价值被一次次挖掘出来,数据被更多人分享和利用。这就是大数据与小数据的辩证关系。所以,有人说,这是一个大数据的时代,也是一个小数据的时代。
新浪官方微博:@赛智时代
个人微博:@赵刚
赛智时代公司网站:http://www.ciomanage.com
加载中,请稍候......