加载中…
个人资料
马前炮-刘石
马前炮-刘石 新浪个人认证
  • 博客等级:
  • 博客积分:0
  • 博客访问:585
  • 关注人气:3,534
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

什么是大数据

(2019-01-18 07:47:13)
标签:

大数据

动态数据

逻辑关系

函数关系

分类: 三农话题

- 农业大数据三讲(中)


数字农业的发展还处于早期阶段,对于其核心的组成部分以及各个部分的理解还有不少歧义。大数据(Big Data)是一个比较新的概念,它也很容易让人望文生义。最简单和最直接的反应就是认为大数据就是大量的数据

 

一位统计局的领导就自豪地跟我说:我们有各行各业多年来的统计数据,有公开发表的,也有没有公开发表的。这些都是最好的大数据。客观地说,这是一个非常典型的误读。

 

关于大数据,不同的研究机构给出的定义是不同的:

l  美国专门研究大数据公司Gartner的定义是:无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

l  在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中给出的定义是:不用随机分析法(传统的抽样调查)的途径,而采用所有数据进行分析处理。

l  IBM公司归纳了大数据的5V特点:Volume(大量),Velocity(高速),Variety(多样),Value(低价值密度),Veracity(真实性)。

 

笔者认为,这些国外的机构和专家的总结和归纳,都在一些侧面反映了大数据的特质和特性,但是还不够全面和准确。那么我们应该怎样理解和定义大数据呢?


1

大数据是动态数据 -

通过各种设备、设施、软件和系统实时获取的动态数据是大数据。比如生产过程中通过监控设备获取的数据、气象监测数据、作物生长数据和消费者的动态数据等等。但统计数据不是大数据,因为它是主要是通过行政管理机构或者市场调查机构,逐层调查和统计上来的静态数据,比如说农业、农村和农民数据等。这些数据的获得不仅耗时费力,还常常会出现人为的偏差和失误。而且一旦统计结果汇总之后即成为历史数据。动态的数据的收集、汇总和实时更新需要通过适当的设备、设施和技术手段来实现。所幸,社会活动的多样化,信息技术的发展,特别是移动终端的普及,使得无限这一任务可以轻松达成,而且大数据的触角也得到极大延展。


2

大数据是多维度的数据 -

我们以农业的产业大数据为例,影响生产过程的因素可以是投入的原材料的变化,技术的先进程度,生产的环境条件,人员的操作水平,市场的行情变化,物流的调控能力等等,总之是多维度的。这些维度的数据需要涵盖能够影响结果诸多原因,即必要的维度,否则就没有价值。数据量大不代表充分,也不表示能够包含必要的维度。只有一个或少量维度的数据,数量再大也不能够称之为大数据。


3

大数据是有逻辑关系的数据 -

现代社会生活丰富多彩,节奏快,每时每刻都产生大量的有价值和无价值的数据。我们根据需求,将这些大量、动态和碎片化的数据收集、标识和关联,并按照一定的逻辑关系组合起来以后,这些数据就开始变得有意义和有价值了。以消费大数据为例,收入水平与消费支出,年龄段与产品类型,地域分布与产品偏好,职业与品牌选择等等,都存在着极高和多重的逻辑关联,我们通过关联分析,可以产生大量和有价值的次生数据并从中得到结论。因此,没有逻辑关系关联的数据是没有价值的,也不能称之为大数据


4

大数据之间可以形成多种函数关系 -

以产业大数据为例,从统计的角度可以统计工厂,产品,工人,原材料投入,消耗,生产效率等很多项目,统计数据之间一般只有线性关系。从大数据的角度可以把整个生产分为不同的生产过程或生产单元,每个生产过程或单元的变量因素都可以有不同的原材料投入,生产条件,管理方式,控制节点等,其中任何一点或多点的变化及其变化的幅度,对生产结果会造成不同的和有规律可循的影响,这些数据之间具有非常清晰的数量关联,人们可以通过参数,算法等总结出其中的数量关系。而且这些多种变量数据之间通常是可以被描述为模型下的函数关系。发现、构建和不断完善各种数据之间逻辑和函数关系才是大数据的本质追求

 

综合以上各点,大数据的正确定义应该是:大数据是通过应用软件或系统,自我产生和实时更新的,按一定逻辑关系关联的多维数据

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有