加载中…
个人资料
储流杰
储流杰 新浪个人认证
  • 博客等级:
  • 博客积分:0
  • 博客访问:169,675
  • 关注人气:239
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

大数据知识服务的内涵、典型特征及概念模型(转)

(2013-06-08 14:47:58)
标签:

大数据

知识服务

半结构化数据

非结构化数据

学术资料

分类: 学术资料

 

 

大数据知识服务的内涵、典型特征及概念模型

秦晓珠 李晨晖 麦范金

 

    【来源】:《情报资料工作》201302

   【作者简介】:秦晓珠,女,1963年生,桂林理工大学图书馆副研究馆员,广西 541004;李晨晖,女,1984年生,桂林理工大学现代教育技术中心讲师,广西 541004;麦范金,男,1963年生,桂林理工大学图书馆馆长,教授,广西 541004

  【内容提要】:文章首先描述了大数据知识服务的内涵,详细分析了大数据知识服务的典型特征,并结合大数据知识服务模式下对各种类型大数据管理和处理需求,给出了大数据知识服务概念模型,最后指出大数据知识服务的实现需要解决大数据的可表示性、可处理性、可融合性及可靠性四个关键问题。

  【关 键 词】大数据/知识服务/半结构化数据/非结构化数据

 

  1 研究背景

  当前,科技创新模式、科学研究范式、知识形态、知识获取、知识交流及处理机制都面临着巨大的挑战,导致知识管理模式以及科技服务工作流的关键知识瓶颈发生重大变化[1],由此呼唤适应未来大数据处理需求的新型知识服务模式的出现,促使信息服务形态从传统的知识分析型服务向知识预测型服务转型。移动互联网、传感网、云计算、物联网、可信计算等新兴信息技术的迅速发展及数字信息环境的泛在化、移动化、智能化、虚拟化的发展趋势,特别是海量结构化数据的复杂处理需求、海量半结构及非结构化数据多维度处理需求为探索新型知识服务模式,解决信息服务领域发展中面临的瓶颈问题提供了新思路与新挑战。

  近几年,在科学研究、计算机仿真、互联网、电子商务等领域数据量呈现快速增长的趋势[2],数据成本的下降,类似于传感网络数据、移动互联网数据、社交网络数据等新兴数据源和数据采集技术的出现使得数据类型增多,而各类难以处理的半结构化和非结构化数据的出现又极大地增加了数据处理的难度,为了从这些数据中发现知识并加以利用,必须对大数据获取、存储、组织、分析和决策过程进行深入研究,从中发现具有前瞻性、挑战性和实用性的社会问题及科学问题,从而使得科学研究第四范式和新型知识服务范式的实现成为现实。

  2 大数据知识服务的内涵及典型特征

  2.1 大数据知识服务的内涵

  大数据知识服务是为适应信息服务业智慧化、协作化、绿色化、先觉化和泛在化的发展趋势而衍生的一种基于网络(包括电信网、广播电视网、互联网、移动互联网等)的,用以解决结构化、半结构化及非结构化数据多维度处理的信息服务新模式,是嵌入式协作化知识服务模式的一种新发展,是现代信息服务理念的具体体现。伴随着RFID射频数据、传感网数据、社交网络交互数据、移动互联网数据逐渐成为未来大数据的几个主要来源,我们发现,现有的信息服务模式及信息管理技术已经无法满足结构化、半结构化和非结构化数据的复杂处理需求,这一形势的发展使得数据量快速增长所带来的存储及计算能力的挑战,结构化、半结构化及非结构化数据的多维度数据处理需求,传统结构化数据管理模式与非结构化数据管理模式的有机融合等逐渐成为现阶段知识服务模式变革所面临的三大挑战。大数据知识服务模式强调知识、能力、资源和过程以服务的形式进行有机融合,并基于网络自由流通,对大数据获取、存储、组织、分析、决策和显示等按照“将计算推向数据,而不是移动数据”的策略,实现大数据知识服务体系中的知识动态协调构建、能力智慧管理、资源按需使用、过程智能控制。大数据知识服务体系是大数据生态系统中最重要和核心的内容之一。一方面,全球将近87.5%的数据未得到真正利用[3]85%以上的是非结构化数据和半结构化数据[4],传统知识服务模式仅仅能够提供极小部分数据给用户有效地使用,并且能提供的数据处理服务也极其有限,就使得半结构化、非结构化数据难以得到充分利用,从而无法实现知识的横向扩展以及数据多维度、深层次的智能分析。通过大数据知识服务模式的引入,使得复杂的结构化、半结构化和非结构化数据处理变得可行和经济高效,从而实现知识横向扩展以满足急剧扩张的知识服务需求,可以在为用户提供大数据进行获取、存储、组织、分析和决策等服务的同时,为其提供结构化、半结构化及非结构化数据的常规、广度及深度分析、科技创新能力智能评价、知识服务竞争力分析、知识创新预测性分析、服务态势综述等高附加值服务。另一方面,为满足用户专业化、集成化、敏捷化和个性化的知识服务需求,需要大数据知识服务平台提供高质量、低成本、可扩展、多维度和多粒度的知识服务。通过大数据生态系统的知识服务技术,可以实现对结构化、半结构化、非结构化大数据及知识服务资源的智能、灵活的知识、服务能力、服务资源及服务过程的有效组合与分解[5],使其能够利用大数据、现有资源及知识服务能力形成不同维度、不同粒度、不同功能及不同类型的大数据知识服务组合,并按需提供给用户,以便最大限度地满足用户的大数据处理需求。

  2.2 大数据知识服务的典型特征

  与已有的信息服务模式相比,大数据知识服务模式和构建过程越来越趋向于个性化、自主化、虚拟化、智能化、透明化和体验化,知识创造模式、组织模式、传播模式和应用模式也呈现出规模化、集约化、数字化和网络化的趋势[6],在数字化、网络化、规模化和集约化等共性技术特征的基础上,大数据知识服务模式更为突出的典型特征可以概括为以下几点。

  (1)是面向智慧服务和自主需求的知识服务。大数据知识服务模式实现的核心是知识服务全生命周期活动中用户、技术、管理、知识、能力、资源和过程的有机集成和优化。为此,大数据知识服务体系融合了物联网、传感网、云计算、可信计算和信息物理融合系统[7]等新兴信息技术,提出要实现大数据用户、技术、管理、知识、能力、资源和过程的全方位、全生命周期地接入和感知,尤其是关注资源(如软硬件资源、信息资源、网络资源、服务资源等,包括半结构化、非结构化和结构化数据)和能力(如大数据获取、存储、组织、分析、决策和显示等)的接入和智能感知。

  在大数据知识服务模式下,各类资源能够通过各种传感器、RFID、适配器、人机交互等实现资源半自动或全自动感知,然后借助3G4G网络、互联网络、电信网、广播电视网等传输信息,在对各类资源进行管理和处理的基础上,同时汇集资源、能力、过程、知识,构建跨领域、跨行业、智能的多学科知识库,随着大数据知识服务体系的持续进化,并不断扩大,从而进一步服务于大数据知识服务的业务执行过程。

  (2)是不确定性服务。大数据知识服务对于用户大数据处理需求不具备唯一解,而是用大数据生态系统中所提供的技术和方法,依据用户大数据处理需求,形成知识服务解集合。大数据用户通过大数据知识服务平台提出大数据处理需求,并按用户自主需求构建的大数据知识服务组合模型,部署服务实施方案。大数据知识服务平台通过支持语义的知识服务匹配技术、智能优化技术,对用户所提出的大数据知识服务进行匹配部署,从而关联到核心服务层的具体服务,从搜索到的符合用户需求的大数据知识服务解集合中,选择合适的服务参与组合,并从所有可能的大数据知识服务解集合中优选与组合出最佳的一组组合来协同完成用户请求,再通过知识服务最优化管理技术、知识服务智能优化技术,对服务组合质量进行评估,并采用智能优化算法对整个过程进行优选,在确定最优云服务组合和资源组合方式后,将服务与资源进行关联绑定,进而部署执行。这个过程体现了大数据知识服务的不确定性特征。

  (3)是强调用户参与的知识服务。大数据的数据来源、知识服务能力、服务资源、服务过程及知识本身都是嵌入到网络和大数据环境中的,且所有大数据主要都是来自于大数据用户,使得大数据知识服务关注的重心应该转移或回归到用户自身的需求。大数据生态系统致力于构建一个用户、大数据制造方、大数据运营方及大数据处理方等可以充分进行大数据获取、存储、组织、分析和决策的公用服务环境。在大数据知识服务模式下,强调用户参与不仅仅局限于传统的用户提出需求和用户评价,而是渗透到大数据知识服务过程及大数据自身全生命周期管理的每一个环节。

  (4)是支持按需使用、按需付费的知识服务模式。大数据知识服务是一种由用户需求驱动的、按需付费的知识服务新模式。用户往往需要通过海量非结构化、半结构化数据了解现在发生了什么,甚至需要利用数据预测未来将要发生什么,以便在行动上做出利于发展的主动准备。例如,通过预测用户的流失预先采取行动,或预测竞争对手下一步行动以便采取主动等。在这些过程中,用户不需要过多关注大数据处理的细节,只需要根据自身的数据处理需求调用或知识服务组合,占用大数据知识服务资源,并支付相应的费用即可。彼此之间的关系是一种按需使用、按需付费、用完即解散的关系。

  (5)是共性技术目标与异性技术特征相辅相成的知识服务模式。大数据知识服务通过第三方构建服务平台,将大数据获取、存储、组织、分析和决策过程中所涉及的所有资源、知识、能力及过程都虚拟化为大单项数据知识服务,再聚合成大数据知识服务虚拟资源池,进行统一的管理与处理。针对不同的行业、领域或不同需求,大数据的获取、存储、组织、分析和决策的管理和处理方法有共性,但必然也存在着异性,因此,针对不同行业、领域及大数据处理需求,就需要在原有共性技术体系的基础上,形成专业性较强的专业化大数据知识服务体系,从而针对独特的专业化要求,形成其独有的大数据异性技术体系。以美国国防部高级研究计划局为例,其大数据研究项目在美国政府的大数据研究与发展的共性技术目标要求之外,具备了国防部独有的技术特征。但在国防部内部又依据不同领域的大数据处理需求,形成了具备异性技术特征的大数据知识服务体系[8-9]

  (6)是基于知识、能力、资源、过程共享和交易的知识服务模式。与传统的知识服务模式相比,大数据知识服务模式共享的不仅仅是服务资源,还有知识、能力及服务过程。随着大数据时代的来临,对大数据获取、存储、组织、分析和决策过程进行管理的基本策略不是移动数据,而是将计算、知识及服务推向数据,在相应的知识库、专家库、数据处理模型(如MapReduceNoSqlSql-MapReduce等)、数据处理框架(如HadoopHadoopDB[10]LinearDB[11]Dumbo[12]等)的支持下,实现资源、知识、能力及过程的虚拟化封装、描述、发布、配置、调用和显示,真正实现大数据获取、存储、组织、分析和决策过程中的知识、能力、资源、过程的全面共享和交易。

  (7)是基于群体创新的知识服务模式。正如美国国家科学基金会(NSF)的大数据研究和发展计划所言,大数据知识服务旨在促进管理、分析、可视化和从大量多样分散异构的数据集中提取有用信息,并充分利用群体创新的力量,创造有意义的网络基础设施以及一体化水平的数据和工具,以支持科学和教育[8-9]

  (8)是更为绿色环保的知识服务模式。大数据知识服务的目标之一是围绕结构化、半结构化及非结构化大数据处理需求,实现大数据获取、存储、组织、分析和决策过程中的知识、能力、资源和过程等的全面共享,提高大数据的利用率,实现数据、知识及服务增值。换句话说,就是实现绿色低碳的环保型大数据知识服务模式。

  2.3 大数据知识服务概念模型

综合现有的关于大数据的各种解释与分析,并结合大数据知识服务模式下对各种类型大数据管理和处理需求,本文将大数据知识服务描述为:大数据知识服务是在大数据获取、存储、组织、分析和决策过程中产生,体现了在大数据管理和处理过程中对知识、服务、资源和过程等的知识服务配置和整合的能力,反映了知识服务实体或机构完成相应行业、领域、任务及预期目标的服务水平,包含了大数据知识服务全生命周期过程中所涉及的知识、服务、资源和过程等因素,其概念模型如图1所示。

 大数据知识服务的内涵、典型特征及概念模型(转)


  大数据知识服务概念模型包括数据、知识、资源、能力、服务、过程和任务七个元素。

  (1)数据。数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。

  (2)知识。知识是指在大数据知识服务过程中所涉及的各类知识,如方法、模型、结构及流程等。知识是构建大数据的基础,贯穿于大数据知识服务全生命周期管理的各个要素,在资源、能力、服务维中的知识是指智力资源、计算能力、服务能力的描述(如行业数据处理经验、资源组合优化方案、服务组合方案等);在过程维中的知识主要是指各种服务设计方案、运行法则、基本规范和经验方法等;在任务维中的知识表现为大数据知识服务完成的状态、用户反馈等。

  (3)资源。资源是指在大数据知识服务过程中所涉及的软硬件资源、信息资源、人力资源、服务资源、网络资源等,反映了大数据知识服务是对大数据获取、存储、组织、分析和决策过程中所涉及的各类资源的有效集成与共享。

  (4)能力及服务。能力是指大数据知识服务平台所提供的计算能力、存储能力、服务组合能力等;服务则是指大数据生态系统中所提供的技术和方法等。

  (5)过程。过程是指在大数据获取、存储、组织、分析和决策过程中大数据知识服务体系对资源、能力及服务的优化配置过程,强调以资源、能力及服务为基础,对所发生业务过程及其中的各类知识、大数据的描述,如大数据处理业务过程约束条件、数据处理方案、服务方案、计算模型及经验知识等。

  (6)任务。任务反映了利用大数据知识服务平台及其他相关资源要素完成大数据管理及处理任务,主要包括两个方面的内容:一方面,大数据管理及处理的目标任务及预期目标;另一方面,指的是实现该大数据处理任务或业务功能的情况,其中包括用户完成该任务的一些客观因素(如时间、人力、软硬件、经济成本等),还包括用户对大数据处理任务完成情况的评估,以及完成任务情况满意度的表现指标(如效率、性能等内在因素,服务、创新等外在因素等)。任务维是大数据知识服务体系在大数据生态系统中面向用户的最重要的交流依据和表现形式。

  3 需要解决的几个关键问题

  目前,大数据的研究主要是将其作为一种技术方法或一种提供知识服务的新工具,而不是把数据本身作为研究目标[4]。作为一种技术方法和工具,它与数据挖掘、预测分析、统计分析、个性化搜索等人工智能方法有密切联系,但也有着不同于人工智能、统计学和信息科学的本质内涵。在物联网、传感网及互联网数据为各个领域带来机遇的同时,由于数据的异质、异构、半结构化、非结构化及不可信等特征,大数据知识服务的管理和处理研究需要解决大数据的可表示性、可处理性、可融合性及可靠性四个关键问题。

  (1)可表示性问题。当前物联网、传感网及互联网中的数据正在向着异质、异构、半结构化、非结构化及不可信等方向发展,半结构化和非结构化数据占据了非常大的比例。目前已有的数据表示方法已不能完整表达已有数据的结构及数据本身的含义,要想有效地对数据进行管理和利用,必须找到最合适的数据表示方法。

  (2)可处理性问题。随着数据规模的急剧扩张,数据类型的迅速增加、数据结构的日趋复杂化,已有数据的处理需求已经远远超越现有计算机处理能力。而传统数学方法和计算模式已无法使用不确定、动态大数据的获取、存储、组织、分析和决策的需求,因此,需要将计算机科学、数学、物理学、管理学等学科结合起来,形成新的数据处理方法。

  (3)可融合性问题。数据规模的扩张、数据类型的增加及数据结构的复杂化给大数据处理带来了前所未有的挑战,同时也使得异质、异构、半结构化、非结构化及不可信数据的融合变得异常艰难。而大数据作为连接人类社会、物理空间和信息世界的重要纽带,有效地实现数据融合也是无法回避的关键问题之一。

  (4)可靠性问题。物联网、传感网及互联网等网络环境的开放性,使得大数据知识服务体系中的数据质量面临考验。正如美国著名咨询公司Gartner所指出的那样,全球1000强公司中有超过25%的关键数据不正确或不精确;英国British Telecom公司因使用数据质量工具而给企业创造的经济效益每年高达6亿英镑[13]。用户在享受大数据所带来价值的同时,也承担着日益严重的安全威胁和隐私风险。

  4 结语

  随着科学研究、传感网络、互联网应用及电子商务等应用领域数据量的飞速增长,大数据正逐渐成为学术界和产业界关注的焦点,相较于Web2.0、云计算、物联网等信息技术的发展轨迹,大数据技术似乎来得更为猛烈。当伦敦奥运会采用大数据技术监测网络安全[14-15]、《时代》周刊发文指出大数据技术为奥巴马的连任立下汗马功劳[16-17]时,人们猛然发现,大数据原来离我们如此之近。但颇感遗憾的是,国内学术界似乎对大数据研究还没有引起足够的重视,研究工作远远落后于国外,研究成果也少得可怜。然而,值得庆幸的是,在李国杰院士、李德毅院士及李未院士的极力呼吁下,已经有越来越多的人加入到大数据研究的队伍中来,相信在不久的将来,会出现属于我们自己的“大数据”。

 

 【参考文献】

 

  [1]张晓林.研究图书馆2020:嵌入式协作化知识实验室[J].中国图书馆学报,2012(1)11-19.

  [2]覃雄派,王会举,杜小勇,等.大数据分析——RDBMSMapReduce的竞争与共生[J].软件学报,201223(1)32-45.

  [3]McKinsey Global Institute. Big data: The next frontier for innovation, competition and productivity[EB/OL].[2012-11-07]. http://www.mckinsey.com/insights/mgi/research/technology-and-innovation/big-data-the-next-frontier-for-innovation.

  [4]李国杰.大数据研究的科学价值[J].中国计算机学会通讯.20128(9)8-15.

  [5]李晨晖,张兴旺,秦晓珠.云图书馆:面向网络化服务的资源组合新模式[J].情报理论与实践,201235(11)39-4360.

  [6]吕竹筠,张兴旺,李晨晖,等.信息资源管理与云服务融合的内涵及共性技术体系研究[J].情报理论与实践,201235(9)26-32.

  [7]中华人民共和国科学技术部.国家高技术研究发展计划(863”计划)信息技术领域:“面向信息—物理融合的系统平台”主题项目申请指南[EB/OL].[2012-11-08]. http://www.most.gov.cn/tztg/201010/P020101020603081404408.pdf.

[8]The White House. Obama administration unveils "big data" initiative: Announces 200 millioninnewR&Dinvestments[EB/OL].[2012-11-04].

http://www.whitehouse.gov/sites/default/files/microsites/ostp/big-data-press-release.pdf.

  [9]The White House. Big data across the federal government[R/OL].[2012-11-05]. http://www.whitehouse.gov/sites/default/files/microsites/ostp/big-data-fact-sheet-final.pdf.

  [10]Kamil Bajda-Pawlikowski, Daniel J Abadi, Avi Silberschatz, et al. Efficient processing of data warehousing queries in a split execution environment[C].Proceedings of the 2011 ACM SIGMOD International Conference on Management of Data. New York, USA. 2011: 1165-1176.

 

  [11]Wang H J, Qin X P, Zhang Y S, et al. Linear DB: A relational approach to make data warehouse scale like MapReduce[C].In: Yu J X, Kim M H, Unland R, eds. Proc. of the DASFAA. Hong Kong: Springer-Verlag, 2011:306-320.

  [12]Dumbo[OL].[2012-11-10]. http://projects.dumbotics.com/dumbo/.

  [13]马帅,李建欣,胡春明.大数据科学与工程的挑战与思考[J].中国计算机学会通讯,20128(9)22-30.

  [14]Chris Petersen. Big data and the London Olympics cybersecurity challenge[EB/OL].[2012-11-11]. http://www.technewsworld.com/story/75754.html.

  [15]Saroj Kar. The London Olympics: Maximum use big data and social networks[EB/OL].[2012-11-11]. http://siliconangle.com/blog/2012/08/29/the-london-olympics-maximum-use-big-data-and-social-networks-infographic/.

  [16]Time. How Obama's data crunchers helped him win[EB/OL].[2012-11-11]. http://edition.cnn.com/2012/11/07/tech/web/obama-campaign-tech-team/index.html.

  [17]iCrossing. How Obama won with big data[EB/OL].[2012-11-11]. http://greatfinds.icrossing.com/how-obama-won-with-big-data/.

 

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有