大数据背景下对统计学带来的机遇和挑战
(2016-06-29 21:45:53)
标签:
大数据统计学机遇挑战 |
摘要:随着互联网技术的不断发展,现在人们的生活基本淹没在信息的海洋,各种交网络,例如微博、朋友圈、人人网、Facebook、推特、微信的信息,更是铺天盖地,据统计现在信息量每年都呈指数爆炸式增长,不论是政府企业还是个人都无法离开信息而单独存在,随着大数据时代的到来,使得分析信息资源的能力越来越重要,作为与大数据息息相关的统计学来说,大数据时代的到来把统计学推到了学科霸主的地位,但是如果统计学内部不积极进行改革创新,也势必会对传统的统计学造成重创。
关键词:大数据时代 统计学 机遇 挑战
前言
大数据最初是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。但由于大数据的处理需要特殊的技术,包括可扩展的存储系统、大规模并行处理数据库、数据挖掘电网和云计算平台,所以大数据不仅仅只是一种信息资产,更深的含义应是数据分析的前沿技术。从学科角度而言,大数据对海量数据进行存储、整合、处理和分析,可视为一种新的数据分析方法。
系统的数据分析方法通常是统计学的研究范畴。统计学通过收集、整理和分析统计数据从而达到探究数据内在规律性的目的,广泛的统计学包括三个类型的统计方法:一是处理大量随机现象统计方法,如概率论与数理统计的方法,包括古典概率统计方法、贝叶斯统计方法、多元统计方法等;二是处理非随机非概率的描述统计方法(称为统计技术方法),如社会调查方法、指数编制方法等;三是处理与特定学科相联系的特殊方法(称为实质性统计方法),如经济统计方法、卫生统计方法、环境科学统计方法、生命科学统计方法等。
传统的统计学理论和方法几乎都是在样本的基础上进行的,这是因为在小数据时代,受收集、处理数据的工具和能力的限制,人们几乎不可能收集到涉及所研究问题的所有数据;或者即使能收集到所有数据,但所需成本过大,从实际出发也会放弃收集全面数据,因此传统的统计学理论和方法通常以随机样本的表现来代表全体的表现。但是,即使选取最优的抽样和统计分析方法,样本也只能最大限度地还原全体在某一方面或某几个方面的特征,而不可能做到在方方面面都完美地体现全体的特征(实际上我们所察觉到的全体数据的特征只是冰山一角,更多的其他方面的特征尚待发掘),这是在小数据时代的资源约束下所能做的最好推断了。
随着全球定位系统、传感器、互联网等各种技术的发展,许多以前较难收集到的数据现在可以方便快捷并且大规模地进行收集了,云计算使得大规模的数据处理成为可能。社会统计在很大程度上从小数据时代所受到的资源技术约束中解放出来,新的技术和工具使得更多的事物和现象可以转化为可分析的数据,大规模数据的处理方法也使得我们在进行数据分析时可以直接运用海量数据。基于海量数据的分析可以使我们获得以前仅使用样本时所无法实现的全新视野,这为统计学的发展提供了前所未有的机遇。同时,基于样本的传统统计理论和统计方法在大数据环境下己经显得有些黔驴技穷、捉襟见肘,我们应如何结合大数据的特点和需求对传统的统计学方法进行改进并找寻新的统计理论和方法,使之能更好地适应大数据时代的发展要求、从大数据中挖掘更多的宝藏,这是统计学在大数据时代必须应对的挑战。
一、大数据概念的解读
大数据时代的到来,为人们生活的各个领域提供了更多选择。目前对大数据的研究中表明,其特征如下:一是数据量级庞大,颠覆人们传统以TB量级满足生活需求的印象,大数据的数量级以PB与ZB来计算,而其进级率均为1024;二是大数据的丰富多样,从宏观解释中我们不难发现,大数据时代的数据信息己由单一的信息结构多元多样发展起来;三是其速度的加快,数据信息的产生速度,为数据监测的高效性与及时性提出了更高需求;四是数据价值高、密度低,数据集中蕴含大量价值较高的信息,若对这些信息进行有价值的挖掘,就必须进行深入解析,避兔留下数据死角。
二、大数据与统计学的比较
统计学在大数据的研究中存在一定的应用,表现在将“大数据”变成“小数据”,对海量数据的搜索、聚类和分类依赖于统计学的一般方法,因而大数据的研究继承了统计学科一些特点。但大数据尚未被统计学吸纳和应用,这主要是由于大数据与统计学存在两个很关键的差别。
第一,样本统计和全样本统计的差别。统计学依赖于样本统计(普查除外),样本是按照一定的概率从总体中抽取并作为总体代表的集合体,而随机抽样是有成本的,如时间成本、资金成本、社会关系等。在样本规模增加有限的情况下,总体数量越大样本估计的误差就越大,这是样本统计不可避免的缺陷。大数据时代产生了海量的即时的电子化数据,数据呈现“总体即样本”的趋势,这一特点刚好能弥补样本统计的这一劣势。大数据的全样本统计虽然能够覆盖全部总体,但由于绝大多数的数据是非结构数据和半结构数据,且大数据常呈现重尾分布,方差、标准差等标准方法会变得无效,长相依和不平稳性往往超出经典时间序列的基本假设,因而概率论(包括分布理论、大数定律和中心极限定理)的应用受到限制。所以,统计学在引入大数据的全样本统计时,有必要对总体数据进行筛选和整合,相当于样本统计中的数据预处理。
第二,预测分析和非预测分析的差别。统计学旨在分析变量之间的相关关系,即两个或两个以上变量之间存在的某种规律性,故数据搜集是发生在变量确定之后,数据的分析价值是可预测的。如若要研究利率对消费行为的影响,则利率大小和消费支出的数据会有目的地被搜集和分析。一旦分析目的完成,为该目的而搜集的数据的价值也就完全实现。大数据是从大规模海量数据中建立模型和发现数据网络关系,强调对复杂系统进行整体性的研究。与统计学的预测分析相比,海量数据的存在是以互联网、传感器为载体,是先于分析需求而存在的,故建立在大数据之上的分析更多的是非预测性的。大数据在统计学中的运用难以进行,是因为缺乏非预测分析依赖的海量数据,海量数据的形成依赖于存储系统和数据中心,不是短期能够形成的。换言之,大数据在统计学科的发展,意味着统计学科的预测分析逐渐向非预测分析或模糊预测分析转变,数据利用由一次性利用向二次利用或N次利用转变。数据的价值也正在于它的无限次再利用,即数据的潜在价值。
尽管大数据中数据来源、数据结构和处理方法的特殊性使大数据区别于传统的数据分析方法,但大数据基于数据关系的内在本质决定了大数据与统计学之间存在必然关系。
三、大数据时代统计学面临的挑战
统计学是一门传统的学科,发展至今已经有几千年历史,无论是学科理论领域内还是生产实践过程中,统计学的发展已经十分成熟,存在着许多成熟的研究成果。统计学的不断发展为人类的社会生产带来了极大的影响,随着大数据时代数据呈现海量、分散式的分布状态,其对统计学的影响也是较为明显的。一方面,大数据时代数据之“大”已经超出人们的想象,数据之“全”让人们对于事情的认知更加全面,大数据的多样性、大体量改变了数据样本与总体之问的关系,另一方面,大数据的数据多样性的特点改变了传统统计对数据统计分析的主观诉求,过去人们通过统计分析更偏向于追求“为什么”,而现在的统计分析更趋同与追求“是什么”。这一系列的影响对于统计学的进一步发展提出了新的发展挑战:
(一)样本选取以及标准的确定难度加大
样本统计属于统计学的核心内容,统计学通过样本统计对客观事物数量特点、数量关系等展开研究。在大数据背景下,样本与总体之问的局部与整体之问的关联性将会进一步地降低,造成样本即是总体的变化趋势,因而会造成大样本的标准化的变更。数据来源的多样化进一步的提升了样本数量,继而提升了统计精确度,促进了统计学学科的高精尖的发展。
但随着样本数量越来越多,而从网络环境中采集到的数据多半属于非结构化的数据,但传统统计学要求结构化数据,利用传统的关系数据库难以对非结构数据进行有效的转换,难以挖掘大数据大样本数据中的潜在信息。大数据时代统计样本的选取工作难度不断提升,传统统计学缺乏非结构数据的建设,难以发挥出大数据时代,大数据库有效转换非结构与结构数据的优势,也为统计学的进一步发展提出了新的挑战。
(二)统计软件以及统计方法的欠缺
随着信息计算机技术的快速发展,基于计算机运算环境的统计学软件应运而生,统计学软件的使用有效提升了统计学中对数据分析和处理的效率和精准率,统计模型也进一步的简化了统计的实际操作,更有利于一般性的统计工作的实践操作。大数据背景下,现阶段发展较为成熟的统计学软件如SPSS、DPS等,尚不能够实现大数据高速传输、存储功能,软件功能还需要一定的开发和升级。与此同时,数据在大数据时代不属于一项资本,其被开发的水平还略显小足,绝大多数被互联网、搜索引擎以及电子商务等相关IT公司、统计机构所掌握。
四、大数据时代统计学面临的机遇
(一)统计效率的提升
在大数据时代,统计学的统计效率得到了更好的体现。一方面,大数据的多样化、及时性特征能够有效弥补传统统计中数据的滞后性问题,有效的提升了统计的时效性,另一方面大数据的高速传输为统计的动态数据的收集提供了保障。与此同时,大数据可被频繁反复应用,采集的统计数据不再单单局限于一种相关用途,其能够服务于各式各样的需求。对采集数据应用的次数逐步增多,数据所具备的潜在价值被更全面的挖掘,而采集数据所产生的成本并小会受数据应用的次数所影响,故各式各样用途的平均统计成本将得到显著地降低。
(二)统计学科体系的新延伸
大数据引入到统计学科之中,庞大的数据使得样本的选取、标准划分都产生了新的变化,传统统计中的样本统计将会进一步的朝向总体统计的方向发展,一并囊括总体统计、样本统计的统计学科体系,能够有效消除总体统计的数据采集难度,弥补样本统计的数据采集小足,达到有效延伸统计学科体系的目的。
(三)统计学科的应用范围扩大
传统的统计学实践是为了去了解一个结果或者一个原因,但基于大数据的统计学科将向人们展示的是一个具体的过程。从前,人们习惯于根据“研究问题”来驱动“收集数据”。今后,大数据到处可得,人们将会用“数据”驱动“研究问题”而这种功能性的还变,促进了统计学应用范围的进一步扩大,例如传统的统计学往往被用来作为一个数学形式的参考信息,例如卫生统计、生产统计等等,但在大数据背景卜,数据本身所含有的信息更加丰富化和多元化,基于海量用户卜的网络数据所包含的信息极为广阔,而这些信息涉及到他们生活中的方方面面,这些信息一旦被深入挖掘出来,将会促进许多产业的快速发展。在大数据背景下,传统统计学的结构化数据局限会逐步接触,在非结构或者半结构的数据统计下,统计学将会应用到许多传统意义上无法数据化的行业领域中。
五、结束语
统计学的大数据化是可预见性的,由于大数据依赖于统一建立的数据中心,所以大数据的发展依赖于统计数据的开放共享,进一步,统计学的大数据化程度取决于大数据的公开程度。在大数据时代下,传统统计学为了更好地适应大数据化趋势,在数据收集方法、数据分析方法及统计制度等方面必然要进行改革和创新。大数据对传统统计学提出了巨大的挑战,但同时也为传统统计学的迅速发展提供了契机,统计学将在大数据时代迎来新的发展。但是在大数据的狂潮中我们应该清醒的认识到大数据对传统统计学是补充而非替代,建立在样本统计和预测分析之上的传统统计学仍在社会统计和经济分析中发挥着主导作用。