加载中…
个人资料
储流杰
储流杰 新浪个人认证
  • 博客等级:
  • 博客积分:0
  • 博客访问:169,736
  • 关注人气:239
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

大数据知识服务平台构建关键技术研究(转)

(2013-06-08 14:57:14)
标签:

大数据

知识服务

关键技术

大数据生态系统

学术资料

分类: 学术资料

 

大数据知识服务平台构建关键技术研究

李晨晖 崔建明 陈超泉

 

【来源】:《情报资料工作》201302

  【作者简介】:李晨晖,女,1984年生,桂林理工大学现代教育技术中心讲师,广西 541004;崔建明,男,1962年生,桂林理工大学现代教育技术中心副教授,广西 541004;陈超泉,男,1963年生,桂林理工大学现代教育技术中心副教授,广西 541004

  【内容提要】:文章分析了大数据知识服务模式的运行机理,建立了大数据知识服务平台构建体系架构,阐述了大数据知识服务平台构建过程中所涉及的主要关键技术,并对实施大数据知识服务模式的思路和发展提出了建议。

  【关键词】大数据;知识服务;关键技术;大数据生态系统

 

  1 引言

  基于目前信息管理领域面临的挑战与机遇,文献[1-2]提出了一种面向智慧服务和自主需求的、关系型数据处理技术与非关系型数据处理技术嵌套融合的、基于大数据的知识服务新模式——大数据生态系统,为我国信息服务业由知识生产型向知识服务型转变,实现大数据信息化增效和知识服务增值,以及大数据知识资源和知识服务能力的共享、交易和协作,提供了一种思路、原则和方法。

  大数据知识服务融合现有物联网、云计算、传感网、移动互联网等信息技术,通过对现有网络化信息管理和知识服务技术进行拓展和变革,将各类大数据资源、软硬件资源、网络资源、知识服务资源和能力虚拟化、物联化、服务化,并将大数据获取、存储、组织、分析、决策和显示等过程进行个性化、自主化、虚拟化、智能化、透明化和体验化的集中管理和经营,从而有效实现大数据生态系统中数据、知识、资源、能力、服务、过程和任务等要素的共享和协同,通过网络(包括电信网、广播电视网、互联网、移动互联网等)为大数据全生命周期(包括大数据获取阶段、存储阶段、组织阶段、分析阶段、决策阶段及显示阶段等过程)提供按需使用、按需付费、基于群体创新、绿色环保、随时获取的知识服务。

  大数据知识服务是大数据生态系统的核心,本文在文献[3]的基础上,结合物联网、云计算、传感网、移动互联网等相关信息技术及大数据知识服务的实际需求,深入剖析大数据知识服务平台构建过程,并对构建过程中所涉及的关键技术进行更深层次的探讨。

  2 大数据知识服务模式运行机理

  大数据知识服务是为适应信息服务业智慧化、协作化、绿色化、先觉化和泛在化的发展趋势而衍生的一种基于网络(包括电信网、广播电视网、互联网、移动互联网等)的,用以解决结构化、半结构化及非结构化数据多维度处理的信息服务新模式,是在大数据获取、存储、组织、分析和决策过程中产生的,体现了大数据生态系统对知识、服务、资源和过程等的知识服务配置和整合的能力,反映了知识服务实体或机构完成相应行业、领域、任务及预期目标的服务水平,包含了大数据知识服务全生命周期过程中所涉及的知识、服务、资源和过程等因素,其运行原理如图1所示。在大数据知识服务模式下,构建大数据知识服务平台主要是将其作为一种研究方法或是一种服务工具,而不是把平台构建当成研究目标。而作为一种研究方法或工具,它与数据挖掘、统计分析、个性化搜索等人工智能方法有着不可分割的联系,也与物联网、云计算、传感网等信息技术相辅相成,但也有着不同于统计学、人工智能方法和信息技术的本质内涵、典型特征及运行机理。

  大数据知识服务平台构建关键技术研究(转)


从图1可以看出,大数据知识服务平台构建主要分为五个服务体系,即基础框架体系、大数据处理体系、过程管理体系、大数据分析与决策体系、交互体系。基础框架体系为大数据知识服务平台的运行提供业务、技术、框架及软硬件环境支持,并通过对大数据知识服务全生命周期过程中的数据、知识、资源、能力、服务、过程和任务七个因素进行感知、虚拟化接入,以体系框架及服务模块的形式提供给第三方大数据处理体系及过程管理体系;大数据处理体系构建于基础框架体系之上,主要负责数据获取、组织及存储等过程中针对结构化、半结构化和非结构化大数据的管理及处理技术,这一体系是大数据生态系统中的大数据技术核心部分;过程管理体系的功能是为知识服务过程的协作提供服务支撑,它可分解为网络环境下多种服务模式、服务管理模式及过程管理模式的集合,实现大数据知识服务的高效管理,并可根据服务使用者的服务需求,动态、灵活地提供大数据知识服务;大数据分析与决策体系是构成大数据生态系统的核心部分,可以从海量的结构化、非结构化和半结构化数据中归纳、过滤及分析信息并依据数据分析结果进行快速、准确、智能地决策[4];交互体系主要研究大数据知识服务供应端各类服务资源和服务技术的嵌入式服务终端封装、接入、调动等,并研究大数据知识请求端接入到大数据知识服务平台、访问和调用平台中服务的技术体系。

  大数据知识服务平台是一个大数据获取、存储、组织、分析和决策服务资源和服务能力共享、交易和协作的智慧平台。依据不同行业、不同领域、不同需求的大数据处理需求,在平台上实现数据、知识、资源、能力、服务、过程和任务等资源和能力的共享、协作和交易,平台的服务内容是大数据知识服务全生命周期,服务对象是信息服务行业的上下游知识服务产业链[5]。同时,大数据知识服务需求者与平台之间是松耦合关系,大数据知识服务模式具有面向智慧服务和自主需求、不确定性,强调用户参与,支持按需使用、按需付费,共性技术目标与异性技术特征相辅相成,基于知识、能力、资源、过程共享和交易,基于群体创新、绿色环保等典型特征的知识服务模式。在大数据知识服务的全生命周期管理方面,平台提供服务设计、性能分析、大数据获取、存储、组织、分析、决策、服务评估、服务过程管理、安全与隐私保护[6]等工具集,基本涵盖了大数据知识服务的全过程。在上下游知识需求产业链方面,平台为科学研究、互联网应用、电子商务和计算机仿真等领域的大数据处理的共享、协作和交易提供支撑。

  3 平台构建体系架构研究

  大数据知识服务平台的开发、实施和应用是一项复杂而系统的工程,涉及许多亟待解决的关键技术。结合大数据知识服务模式的内涵、典型特征、运行机理和概念模型,本文提出了一种大数据知识服务平台构建体系架构,如图2所示。该图主要描述了大数据知识服务平台形成过程以及构建过程中所涉及的关键技术。

大数据知识服务平台构建关键技术研究(转)

  (1)数据源层。提供大数据知识服务全生命周期管理过程中所涉及的各类大数据来源,其中RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据将会成为信息服务领域未来大数据的几个主要来源。李国杰院士认为,目前大数据的来源可以粗略地分为两大类:一是来自物理世界,二是来自人类社会[7]。前者主要是来自于物联数据或科学实验数据,后者则主要与人类的社会活动相关。

  (2)大数据智能感知层。主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、监控、初步处理和管理等。这一层解决的重要问题是大数据的感知、识别,信息资源的采集、分类、聚合等处理,从而为大数据知识服务平台对数据的智能化识别和管理提供支持[8]

  (3)基础支撑层。提供大数据知识服务平台所需的虚拟服务器,分布式虚拟存储,结构化、半结构化及非结构化数据的Sql-NoSql数据库及物联网络资源等基础支撑环境。

  (4)数据流转层。作为一个概念模型存在于大数据知识服务平台的体系架构之中,从大数据知识服务管理全生命周期研究角度(即大数据知识服务执行前、执行中、执行后)出发,将其划分为大数据获取层、存储层、组织层、分析层及决策层,一系列理论模型的构建为大数据处理工具层提供理论支撑和业务支持。

  (5)大数据处理工具层。依据数据流转层的理论模型,结合用户的大数据处理需求及数据特征,提供大数据采集、加工、存储、组织、分析及决策等一系列的工具集,并支持大数据知识服务需求与服务供应的注册发布、需求发布、供需匹配、交易协作、服务质量评价、知识服务聚合与分类、知识社区创建等。

  (6)虚拟服务构件层。存储并管理各类粗细粒度不等的大数据处理构建,供不同大数据知识服务需求调用。作为大数据处理工具层与大数据知识服务平台层之间的桥梁,在有效调度大数据处理工具层所提供的各类大数据处理工具集中,通过服务优化管理技术,采用智能优化算法对所有大数据处理工具组合进行优选,在确定最优大数据处理服务组合和资源组合方式后,将服务与资源进行关联绑定,进而部署执行,并将结果及部署方案传递到大数据知识服务平台层。

  (7)大数据知识服务平台层。需要指出的是,大数据处理工具层是大数据处理系统的核心,而大数据知识服务平台层则是大数据知识服务系统的核心,两者之间并不能一概而论,前者强调的是数据处理,后者强调的是知识服务,且前者是后者的基础。分为管理层、业务层和应用接口层三层:①管理层主要是将接入到大数据知识服务平台的各类大数据处理任务及相应的解决方案等汇聚成虚拟大数据知识服务资源,并通过大数据知识服务定义工具、虚拟化工具、业务管理工具等,将虚拟大数据知识服务资源封装成业务逻辑组件,发布到大数据知识服务业务逻辑层;②业务层包含服务组件层、业务模型层和交易层三层,服务组件层负责接受上一层所发布的大数据知识服务处理任务及方案,依据方案将不同的大数据知识服务构件组合成粗细粒度不同的大数据知识服务业务类型,供不同的业务模型调用;业务模型层在接收到调用命令后,可调用不同的服务组件的业务需求,可在交易层为用户大数据处理需求提供搜索匹配,引导大数据处理需求和大数据知识服务资源的交易,并记录整个交易过程,在完成交易后,做出服务质量评价;③应用接口层主要面向特定大数据处理领域,提供不同的专业应用接口以及大数据知识服务用户的注册、登录、验证、修改用户信息等通用管理接口。

  (8)应用层。负责各类大数据知识服务需求的发布、大数据知识服务过程的交互等,参与大数据知识服务全生命周期管理的全过程。其中需要指出的是,交互终端除了传统的移动终端、PC终端、专业终端及门户等之外,物联感知终端、生物体验终端及其他隐形终端也是未来大数据处理需求的新兴技术体系。

  (9)网络传输层。主要指大数据知识服务平台运行过程中必须依赖的网络环境和网络传输协议。

  4 平台构建的关键技术

  在大数据知识服务平台构建过程中,所涉及的技术领域非常广泛,文献[8]给出了云计算环境下信息服务平台构建的技术体系,描述了所涉及的关键技术。鉴于大数据知识服务模式是信息技术和信息服务模式的更深层次的发展,同时为适应大数据知识服务模式及平台构建的技术要求,这里根据大数据知识服务平台构建的不同阶段及大数据处理的不同需求,总结了构建过程中所涉及的主要关键技术,主要分为以下八个部分。

  (1)复杂结构化、半结构化和非结构化大数据管理与处理技术。主要是指对复杂结构化、半结构化和非结构化大数据的管理及处理能力,需要解决大数据的可表示、可处理、可靠性及有效传输等几个关键问题。需要解决的技术包括结构化及半结构化数据的复杂处理技术,非结构化大数据处理技术,大数据获取模型,大数据过滤技术,大数据数据组织技术,海量易购数据模型和存储技术,大数据智能分析技术,智能决策技术,增量处理技术,大数据知识服务平台上Sql-NoSql计算的节能及调度优化技术,大数据处理的开发、调试与管理技术,大数据获取、存储、组织、分析和决策操作的可视化接口技术,大数据的网络传输与压缩技术,大数据安全与隐私保护技术等,特别是半结构化和非结构化数据的高效处理技术,新的数据表述方法,异构数据的数据融合技术,大数据的去冗余及高效低成本的数据存储技术,大幅度降低大数据处理、存储和传输的新技术,以及大数据挖掘分析工具和开发环境等都是亟待解决的关键问题。

  (2)大数据智能识别、传感与适配技术。如前面所述,RFID射频数据、传感器数据等将会成为未来大数据的主要来源,因此,大数据知识服务平台构建需要解决大数据知识服务的数据、知识、资源、能力、服务、过程和任务等资源和能力的智能感知、接入、网络传输、海量传感数据的智能化高效管理与处理等技术。互联网技术已经解决了一部分大数据知识服务的数据、知识、资源、能力、服务、过程和任务等资源和能力的接入问题,但为实现大数据知识全生命周期管理过程的全面物联化、智能化以及各类服务资源和能力的智能识别、传感和适配,必须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。因此,如何在智能物联网环境中,准确感知、管理和实时处理每时每刻都在急速产生的传感、物联、交互数据将会是大数据知识服务全生命周期管理过程中最亟待解决的难点之一,特别是对时间敏感性很高的大数据进行处理,是需要攻克的关键技术之一。

  (3)大数据知识服务模式、体系架构、资源分类及平台标准规范。从系统开发的角度出发,需要研究大数据知识服务平台的内涵、运行机理、典型特征、体系架构及服务模式。同时,大数据知识服务平台构建的相关标准和规范的制定,包括大数据智能感知的识别、传感及适配标准、所涉及的大数据分类标准、大数据管理及处理标准及规范、知识服务的交易、协作和共享准则、知识服务接入准则、描述规范、访问协议及知识服务评价体系等。

  (4)大数据知识服务全生命周期过程中的数据、知识、资源、能力、服务、过程和任务等资源和能力的虚拟化接入技术。大数据知识服务体现在大数据管理和处理过程中对知识、服务、资源和过程等资源和能力的知识服务配置和整合的能力,因此,针对平台资源和服务的虚拟化接入,需要分别对这七个要素的特征及内涵进行分析,提取每种要素的特征参量,并建立科学、合理、方便的评估,以便数据、知识、资源、能力、服务、过程和任务等资源和能力的虚拟化接入。

  (5)大数据知识服务交易模型研究。主要为大数据供应者、运营者和使用者之间提供一种基于市场模式、行业模式、领域模式的大数据知识服务交易、协作和共享,需要提出一种基于多模态、多维度、可扩展的动态服务交易模型,用以支持面向智慧服务和自主需求的、强调用户参与的、支持按需使用和按需付费的、基于群体创新的大数据知识服务交易。因此,如何确立多元化动态交易模式、大数据知识服务交易过程模型及过程控制、可信交易的监测、动态交易规则的配置和部署以及双赢的智能交易协调机制等也是需要解决的关键技术之一。

  (6)大数据知识服务全生命周期管理技术。为了提高大数据知识服务平台的服务水平,提升知识服务主体对平台的粘连性,需要对大数据知识服务全生命周期管理技术进行深入研究。

  (7)大数据知识服务质量评价体系。大数据知识服务平台具有面向智慧服务和自主需求,强调用户参与,支持按需使用和按需付费,共性技术目标与异性技术特征相辅相成,基于知识、能力、资源、过程共享和交易,基于群体创新、绿色环保等典型特征,必然导致大数据知识服务平台是一个同时支持离线、实时数据处理的大数据处理模式,也就意味着大数据知识服务平台是一个高效率与高风险同步存在的知识服务模式,而控制风险是大数据知识服务平台成功运营的基础。因此,如何集合大数据处理需求及知识服务过程的业务特征,建立对大数据知识服务全生命周期管理质量的验证、评价、考核、分级、审核和监督体系,成为亟待解决的关键问题之一。尤其是在知识服务主体机构和大数据知识服务平台运营者、使用者、大数据供应者等之间建立系统、科学的无缝链接关系,将平台服务质量评价、机构服务质量评价、服务体系评价以及三者之间的相互结合作为实现大数据知识服务交易的核心引擎,对平台及相关主体进行全程监测评价和服务前、服务中、服务后评估机制等方面。

  (8)支持多元化、可视化大数据知识服务终端交互技术。主要指支持用户的大数据处理需求、大数据管理与处理结果反馈、用户终端设备与大数据知识服务平台交互的可视化、智能化及个性化的界面技术。包括支持参与大数据知识服务全生命管理周期管理的底层物理终端设备、传感终端及智能识别终端的智能嵌入式接入技术,不同类型大数据知识服务平台的互接入技术,用户请求接入、访问大数据知识服务平台的控制技术,支持知识服务结果反馈与现实的、支持大数据知识服务全生命周期管理的、支持多主体协同的、支持多元化用户终端交互的可视化技术以及支持大数据用户使用知识服务组件的技术等。

  5 大数据知识服务模式的实施思路

  对大数据知识服务平台构建关键技术的深入研究目的是为了大数据知识服务模式的实施。大数据知识服务模式的实施应该遵循“以大数据处理需求为指引、以信息技术与人文精神融合为重点、以自主创新与共享协作为方法、以服务模式的应用示范为目的”的总体指导思想。

  (1)以大数据处理需求为指引。紧密结合当前信息服务领域发展过程中所面临的挑战与机遇,充分考虑不同行业、不同领域、不同用户大数据处理需求,以及我国信息服务行业在实现“信息处理由传统常规处理向广度、深度转移,生产型服务向知识型服务转型,从信息服务产业链底层向高层转移”过程中的大数据处理需求,结合先进的信息技术成果和信息化基础,提出相应的大数据知识服务模式。基于各类大数据知识服务模式,构建相应的应用系统,开发大数据知识服务平台。

  (2)以信息技术与人文精神融合为重点。在现有信息化基础、信息技术及新型知识服务范式的基础上,对云计算、物联网、传感网、移动互联网、人工智能、可信计算等信息技术进行有机融合和有效拓展,并从人文角度,观察各类信息技术、信息资源、知识服务过程等背后的共性关系、因果关系、关联关系及互生关系,实现技术与人文的有机融合,从而攻克大数据知识服务平台构建所需的各类关键技术。

  (3)以自主创新与共享协作为方法。在大数据知识服务平台构建技术的研究过程中,要以充分掌握基础技术、研发并掌握核心关键技术为原则,充分发挥团队协作精神,争取在大数据知识服务模式、体系架构、资源分类及平台标准规范等基础理论、方法、原则方面实现原始创新;在关键技术研发、平台研发、平台构建等方面实现集成创新;在大数据知识服务模式推广、应用、示范等方面实现应用创新。

  (4)以新型知识服务模式的应用示范为目的。通过大数据知识服务平台的应用示范研究总结新型知识服务模式的成功经验,发现存在的问题,找出需要改进的地方,进一步提炼用户的大数据处理需求,从而改进和完善基础理论研究和技术研发的研究成果,最终确保应用示范的顺利实施。

  6 结语

  目前,大数据知识服务的理念和技术已经引起了学术界和产业界的关注。美国奥巴马政府的投资正式启动了“大数据研究和发展计划”的重大发展战略[9-10],这必将有力地推动大数据基础理论与应用的研究工作。我国信息服务领域也已经启动了大数据知识服务的部分内容研究,如中国计算机学会于20126月专门成立了大数据专家委员会,并举办了“大数据时代,智谋未来”学术报告会[7]2012年中国图书馆学会年会专门组织“融合·创新·超越——共谋数字图书馆发展”的专题论坛,并邀请武汉大学陈传夫教授做了“大数据与数字图书馆”的专题报告[11]2012年教育部高校图工委信息技术应用年会专门组织专题报告“大数据时代的图书馆知识服务创新研究与探索”[12]等。可见,大数据知识服务已经成为新型知识服务范式新发展的重要内容。

  大数据知识服务的研究是一个战略性的系统过程。它的发展将是一个长期的、螺旋式进化的、阶段性渐进的过程,需要“产、学、研、政”的通力协作和共同努力。

 

  【参考文献】

  [1]王珊,王会举,覃雄派,等.架构大数据:挑战、现状和展望[J].计算机学报,201134(10)1741-1752.

  [2]覃雄派,王会举,杜小勇,等.大数据分析—RDBMSMapReduce的竞争与共生[J].软件学报,201223(1)32-45.

  [3]樊伟红,李晨晖,张兴旺.图书馆需要怎样的大数据?[J].图书馆杂志,2012(11)63-6877.

  [4]Hsinchun Chen, Roger H L Chiang, Veda C Storey. Business intelligence and analytics: From big data to big impact[J]. MIS Quarterly, 2012, 36(11):1-24.

  [5]Benjamin H Brinkmann, Mark R Bower, Keith A Stengel, et al. Large-scale electrophysiology: Acquisition, compression, encryption, and storage of big data[J]. Journal of Neuroscience Methods, 2009, 180(1):185-192.

  [6]Ann Cavoukian, Jeff Jonas. Privacy by design in the age of bigdata[OL].[2012-11-15]. http://privacybydesign.ca/content/uploads/2012/06/pbd-big-data.pdf.

  [7]李国杰.大数据研究的科学价值[J].中国计算机学会通讯,20128(9)8-15.

  [8]张兴旺,李晨晖,麦范金,等.挑战与创新:重新审视云图书馆构建的技术走向[J].情报资料工作,2012(4)37-41.

  [9]The White House. Obama administration unveils "bigdata" initiative: Announces 200 millioninnewR&Dinvestments[EB/OL].[2012-11-04]. http://www.whitehouse.gov/sites/default/files/microsites/ostp/big-data-press-release.pdf.

  [10]The White House. Big data across the federal government[R/OL].[2012-11-05]. http://www.whitehouse.gov/sites/default/files/microsites/ostp/big-data-fact-sheet-final.pdf.

  [11]中国图书馆学会.2012年中国图书馆年会——中国图书馆学会年会[EB/OL].[2012-11-20].http://www.lsc.org.cn/Attachment/Doc/1353035776.doc.

  [12]教育部高校图工委.2012年教育部高校图工委信息技术应用年会——会议议程[EB/OL].[2012-11-20].http://itaam2012.lib.uste.edu.cn/ITMeeting2012/plus/view.Php?aid=15.

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有