加载中…
正文 字体大小:

融合复杂网络科技文献分析工具综述

(2008-09-09 18:55:00)
标签:

复杂网络

科技文献分析

分析工具

分类: 信息分析

融合复杂网络科技文献分析工具综述


□ 毕然 吴斌 / 北京邮电大学智能通信软件与多媒体北京市重点实验室 北京 100876


摘要:当前对于各种大型网络的各类特征研究已成为学术界的研究热点。为了更加高效准确地分析不同
网络的各类特征,研究学者们已经开发出了大量的网络分析工具。文章首先阐述了用网络分析工具辅助科技
文献领域研究的重要性,调研了国际上的网络数据分析挖掘工具,总结了各种分析工具的特点和用途,重点
从功能、架构、技术上分析研究了应用于科技文献领域两款有代表性的软件ArnetMiner和D-Dupe。最后总结了
网络分析工具的分类和进一步的发展方向。

关键字:复杂网络,科技文献,数据分析,数据挖掘

1 背景

随着复杂网络的研究成为学术热点,与之相关的研究工作已经深入到了工程技术、社会、政治、医药、经济、管理等很多相关学科并广泛应用。参与复杂网络研究的学者们也来自不同学科方向,如:图论、统计物理学、计算机网络研究、生态学、社会学以及经济学等领域。虽然各学科研究方向不尽相同,但研究的思路和方法有着相似的过程,大致分如下六个阶段:数据的网络建模,基于网络的统计和特征分析,计算网络静态几何特征量,追踪网络随时间的演化过程,挖掘网络所包含的信息与知识,最后对网络结构和研究结果进行可视化展示。由于分析的网络往往规模庞大,使得利用计算机软件的自动分析显得极为重要。然而,在不同学科的研究过程中,很多学科专家对计算机工具的开发并不熟悉,无法集中精力来解决其领域问
题,从而影响了研究进程和效果。困难主要体现在两个方面:①要投入大量的精力来在计算机上实现数据挖掘与网络分析的算法;②研究分析得出结论也没有很好的展现方式。因此用分析可视化工具来辅助其研究工作有很实际的意义。

本文第二节从新颖性、通用性、实用性等方面介绍了国际上流行的各种网络分析工具。第三节从功能、架构、技术特性方面重点介绍并比较了几种最新的应用于科技文献领域的网络分析工具软件。第四节介绍了一种新研发的网络数据分析工具——
ITFNAV的功能和特点。最后总结了网络分析挖掘辅助工具的分类和发展趋势。

2 网络分析挖掘工具简介

本节将从面向科研评价领域、面向全领域、面向社会科学领域及面向分析专题的工具这四个领域方面来介绍国际上流行的各个网络分析工具。

2.1 面向科研评价领域

2.1 面向科研评价领域
● ArnetMiner:科研合作网的专家检索系统(http://www.arnetminer.org/)。 ArnetMiner主要面向研究社会网络的各种特征,提供在线的作者资料检索,是相关领域及合作关系挖掘软件,可以很好地找出领域专家、作者从事的领域、合作团体等。该软件偏重于对单个作者信息的检索和挖掘,只集成了部分挖掘算法。项目在 2007年开发完成,使用的技术和方法都比较新颖,对领域专家和科研评价都有比较好的效果。
● CiteSpace:一款免费的用于分析、挖掘和可视科研文献数据的 Java应用软件(http://cluster.cis.drexel.edu/cchen/citespace/)。是一款专门针对科研文献数据设计的分析可视化软件,尤其针对于作者引文网的分析和可视化。项目的开始时间 2004年10月份,最后一次更新时间是 2007年9月30日。

● PaperLens:用优雅的可视界面来反应某科研领域的发展趋势、活动和关系的软件(http://www.cs.umd.edu/hcil/paperlens/)。如名称所示,它专门针对文献数据的分析和挖掘,包括统计、评价等功能。它将文章、作者和会议间的关系挖掘出来,已经实现了对1995-2002年8年期间的 Infovis会议的论文集数据的分析,并进一步扩展到对(1982-2004)23年间的 ACM SIGCHI会议文献的挖掘。现在由马里兰大学和微软公司共同研制,进行进一步的研发,将来用于科学评价领域。
● TDA:Thomson data analysis是一款基于文本信息的分析和可视化工具,可以对科技文献领域提供强大的可视的搜索和挖掘功能(http://scientific.thomson.com/products/tda/)。 TDA功能全面,涉及检索、分析、统计、可视化等各方面的功能。其特性是检索功能强大,并将其它功能与检索功能相联系。

2.2 面向全领域
● The Network Workbench(NWB):是一款面向大规模网络数据的分析、建模、可视化的工具集(http://nwb.slis.indiana.edu/)。它面向网络研究相关的各个领域,如生物学、社会科学、物理学等。并且是一款功能全面综合的辅助软件,包含了网络挖掘分析和可视化功能,可以辅助完整的研究流程。其构架使用的是 CIShell技术,具有分布式、松耦合、插件式服务等优点。该软件创始于 2005年10月,最新的版本是NWB Tool 0.8.0 Release(Dec 14, 07)。
● Information Visualization Cyberinfrastructure(IVC):是一款信息可视化的工具集,收录了很多实用的可视化基础工具(http://iv.slis.indiana.edu)。.IVC在2000年开始作为一个软件库工程来开发。其目标是提供一套全面的数据资源、算法资源、计算资源、以及如何使用数据挖掘和信息可视化算法的教学资料。IVC的四个主要部分是:数据库、计算资源、软件和学习模块。其中比较知名的开源可视化软件库 JUNG、Prefuse都收录在软件模块里。收录的大部分软件未商业化,其中既包含了面向分析挖掘的软件也包含了面向可视化的软件。
● CNetMiner:用创新的交互方式来挖掘网络型数据的软件工具,具有很强的实用性(http://www.netminer.com/NetMiner/home_01.jsp)。它重点强调了可视分析的概念,允许用户用可视的、交互的方式挖掘底层数据的模式和结构。它面向网络挖掘相关的全领域,同时具有分析挖掘和可视化的功能,更重要的是它将算法分析和可视化结合,提出了独特的挖掘方式。当前的软件版本是 Version:3.2.0.071115 Released:November.15,2007。该软件是完全商业化的软件,由韩国公司开发。
● Piccolo:是一款基于 Java 2D技术用于可视化结构图形的软件工具集(http://www.cs.umd.edu/hcil/piccolo/)。它的特点是支持可收缩的图形界面。该工具创建的较早,在当时可收缩的图形界面是一大创新,但当今出现的大部分可视化软件都具有可收缩特点。该软件的另一大特点是同时提供了 .net和Java两个编程的版本,为非商业化软件。
● VxInsight:是一款专门在大规模网络数据中发现和分析实体关系的软件(http://www.cs.sandia.gov/projects/VxInsight.html)。它是面向研究的全领域、构建得较早(1995)的网络关系发现和分析软件,集成了分析和可视化的技术。该软件现在还未商业化。
● Netlens:是一款以交互的方式挖掘网络数据的软件工具(http://www.cs.umd.edu/hcil/netlens/),其特性是基于内容驱动的分析方式。它指出了比较流行的网络可视化方法的缺欠,提出了新的交互式发掘信息的方法,并给出了具体的实现。同时,它提出了用树来表示图形信息的功能,命名为 treeplus,有很好的视觉分析效果。它也是面向各个学科领域的一款综合性的分析软件,现阶段实验效果比较好的方向是科研和邮件社群网络。
● D-Dupe:是具有交互式、任务可视化的处理实体解析领域的软件(http://www.cs.umd.edu/projects/linqs/ddupe/)。其专攻的领域就是实体解析,应用如科研合作网的作者重名解析等。其具有良好的用户界面,将实体解析的流程可视化并提供手工辅助操作的功能,是商业软件。

2.3 面向社会科学领域

● UCINET:社群网络分析挖掘软件,主要功能包含:核心节点挖掘、子团体挖掘、角色分析、初等图论等(http://www.analytictech.com/ucinet/ucinet.htm)。这是一款比较有名的商业化软件,不仅应用在科研领域,还在商业智能等领域发挥着作用。最新的版本是 07年10月份发布的版本 6.178,该软件的特点是功能强大全面,集成的分析算法比较多,界面简单易用,是社群网络分析挖掘的首选。

2.4 面向功能专题的工具
● CFinder:基于 CPM算法面向社团结构挖掘的软件(http://www.cfinder.org/),同时侧重于网络演化的发现。该软件专注于在海量数据的网络中挖掘出各种结构和社团,并研究这些结构和社团的演化及标识问题等。该软件起始于2005年,并未商业化。
● C-Group:是一款研究在社会网络中随时间演化的动态社群的分析软件(http://www.cs.umd.edu/projects/linqs/cgroup/)。和大部分的网络可视化工具不同, C-Group既不是展示整个网络,也不是展示以某个节点为中心的网络,而是关注于由用户定义的一个社群和社群中的节点随时间的变化。它与D-Dupe是同一个实验室的研发小组开发,提供的是与D-Dupe相类似的界面,属于在 D-Dupe之后该实验室最新的研究成果。但其还未提供成熟的软件版本和相应的文档说明。
● KrackPlot:是一款为社会网络所设计的网络可视化工具(http://isi.edu/~blythe/KP/)。它简单易用,可以快速地构建程序并有较强的适应性。该软件专注于可视化技术方面,当前的版本是 4.3(11/02/2006),未商业化。
● SoNIA:动态的显示网络发展或者可视化流程的 Java软件包(http://www.stanford.edu/group/sonia/)。其在可视化方面的特点是可以将网络演变或者布局的过程动态地展现给用户,还可以将这个流程保存成视频文件。该工具最新更新 9/15/2004。如表 1所示:

3 科技信息分析最新工具介绍

在众多的科技文献数据挖掘工具中,ArnetMiner和D-Dupe属于两款功能较强,有代表性的工具软件。 ArnetMiner是由清华大学计算机系工程研究室开发,D-Dupe由美国马里兰大学开发,均为未商用的软件。其中,ArnetMiner属于功能全面的软件,涉及从数据处理、整合开始,到检索、挖掘、可视化方方面面的功能。而 D-Dupe则针对于数据预处理——实体解析这个领域提出了自己特别的解决方案。下面将以 ArnetMiner和D-Dupe两款软件的功能、架构、技术、理念为例,说明这两种有代表性的软件工具的特点。

3.1 ArnetMiner
ArnetMiner最大的贡献是提出了一个含有四个步骤的流程,来构建针对科技文献领域的挖掘工具。这四个步骤是:①从非结构化的网页数据中自动抽取出作者的履历信息;②将不同的数据源数据整合为统一的科技文献数据系统(作者履历、文章信息、刊物信息、机构信息等);③基于文献数据系统提供强大的搜索服务;④基于文献数据系统,结合搜索服务,提供挖掘服务。

为了实现这四个步骤的功能, ArnetMiner将系统分为五个功能模块,其构成如图1。

 

五个功能模块为:抽取、数据整合、存储与访问、检索、挖掘。而这五个功能模块的组织就是按照数据处理的流程进行的。下面阐述每个功能模块的特性:

(1)抽取的来源广泛,可能是网页、论文、数字读书馆等;
(2)数据整合部分提出了一种基于约束的概率模型来处理作者重名问题;
(3)在存储方面,它提供倒排文件的索引方式来加快速度;
(4)检索方面,除了常用的作者检索和文章检索,提出了子领域检索的这种全新的检索概念;
(5)挖掘方面,跟检索功能相结合,提供四种挖掘服务:专家发现、领域热点发现、作者关系发现、领域文章挖掘。
ArnetMiner的网站通过使用者调查显示,其有很好的演示和挖掘效果。 ArnetMiner将检索和挖掘服务构建成WebService,可以供第三方使用,但目前还未发现基于 ArnetMiner服务的应用。ArnetMiner需改进的方面包括:作者间的关系种类单一,目前只支持作者合作网。作者信息的抽取数据源种类不够广泛,未来可考虑 FOAF文件等。


3.2 D-Dupe
D-Dupe集成了数据挖掘算法和交互可视的界面来支持一项重要的分析工作:实体解析。通过用可视网络的方法来描绘出从大规模数据集中抽取出的与实体解析相关的子网落,使得用户可以将人的能力加入整个实体解析的过程中。应该说, D-Dupe软件工具是可视分析概念在实体解析的研究方向一次很好的尝试。 D-Dupe将可视分析在实体解析的研究过程定义为:①用户选择 D-Dupe提供的实体解析算法,处理数据;②D-Dupe将算法计算前后的网络图展示给用户,供其参考解析是否合理;③用户根据 D-Dupe提供的网络图,和相应实体具体信息进行手动的合并实体;④ D-Dupe提供用户合并的历史过程展示,供用户决策合并的合理性。D-Dupe软件的展示图如2。

软件界面左侧的面板的主要功能是算法分析的选择和结果集合的显示,其中上部分的面板中列出通过选择的算法计算的结果集,包括算法所认定存在是同一作者可能性的作者对。用户可以选择某一作者对,将其在右侧的网络展示区域中进行展示。右上为网络图形展示区域,会展示出具有重名可能性的作者对的相应网络关系,给用户以直观可视的效果。在右下部的框体中会列出网络图形中节点的详细信息,给用户参考。

D-Dupe的创新性具体体现在如下的两个方面:

(1)D-Dupe通过可视网络图的方式,向用户展示潜在可能的作者重名对。它的可视化的网络展示是专门针对实体解析而进行优化过的,同时提供未优化处理的实现全图展示功能的接口和方法。
(2)D-Dupe不仅集成了实体解析的众多算法,而且提供灵活的方式让用户在线选择不同的解析算法和它们的组合,最后提供算法计算后的实际网络效果图,辅助用户判断.


4 网络分析工具ITFNAV简介

ITFNAV(Integrative Tools For Network Analysis and Visualization)是网络分析展现集成工具的缩写,是由北京邮电大学通信软件工程中心复杂网络小组自行设计开发的软件。 ITFNAV的目的是构建具有分析、挖掘和可视化功能的软件工具,其与 ArnetMiner的功能设计相似,也涉及到数据处理、整合、检索、挖掘、可视等功能细则。

其突出的特点是:

(1)数据模型的可变性。我们提出了三种通用的网络数据模型来表示现实世界中的网络数据,而系统的后台数据库具体信息采用 XML文件动态配置的方式,使得系统后台数据的替换容易进行,进而系统可以适用于广泛的领域。
(2)可视分析。其不仅可以应用在实体解析如 D-dupe,还可以应用在对网络的分析上。将网络图形的渲染效果与节点、关系的实际统计特征值或其它属性相关联,可以使用户通过观察图形了解更多的信息。

如图3所示,软件的主界面显示可视化网络,下面的文本区域将给出这个网络图相关的节点信息和统计信息。软件的左部是针对于网络中的节点、关系过滤设置,调整图形渲染属性的面板。同时,软件还提供了针对于网络图形的分析功能,如图3中的两个弹出对话框,分别统计了该网络最重要的5个节点和 5条边,及它们的重要性比重。

5 网络分析工具发展趋势

本文分析总结了国际上流行的各种网络分析工具,通过比较分析可见,网络分析工具软件的功能向着三个方向发展:一种是功能综合齐全的,比如NWB、NetMiner等;一种是专用于某领域方面的研究,比如专用于科技文献领域研究ArnetMiner,、
CiteSpace、PaperLens等;还有一类是专用于特定功能的,如D-Dupe用于实体解析,CFinder用于社群挖掘等。

从各种网络分析工具所提供的功能、具有的架构、提出的特性,总结网络分析工具发展趋势如下:

(1)软件服务的概念: SAAS(Software-as-aservice)是在21世纪开始兴起的一种完全创新的软件应用模式众多的分析工具都不仅仅满足于只提供给用户可运行的软件系统,而尝试将软件功能作为一种服务发布出去。在这方面,NWB、ArnetMiner等工具已经提出了相应的解决方案。 ArnetMiner将检索和挖掘都作为 WebService服务发布,使用户可以将其提供的服务无缝地融入其它的系统中。同时,软件作为服务,可以带来方便计费、更好的控制用户的使用、易于升级等优点。
(2)体系架构的灵活性:根据前文提到的网络分析工具的三个发展方向可见,工具的功能变化是比较频繁的。很多工具软件的现有版本和历史版本的功能差距很大。比如 D-Dupe现有的实体解析功能主要是针对科技文献数据,但该软件作者在论文中也提到,未来希望将该软件扩展到更多的领域,如电信通话数据,电子邮件数据等等。这就需要网络分析工具的体系架构相对灵活,来适应网络挖掘领域高速的发展变化。
(3)应用可视分析概念:根据上文提到的软件工具统计, 70%以上的网络分析工具都兼具有分析挖掘和可视化的功能,而在这其中, 80%的工具都将分析的结果和网络可视化技术结合,达到更好间。但此方面的研究几乎还未实例化,现实构建的的分析效果。可视分析强调将机器的优势与人的能时候存在部署问题。如果软件作为服务的理念得到力相结合,它融合了可视化、人的因素以及数据分实现,集群计算技术的引入将非常容易。如何用可视化来表示数据分析的结果,都是网络分析。如何更好用可视化技术来辅助人的分析流程,析工具进一步研究发展的重点。

(4)系统高效(集群计算):网络分析和数据本文总结分析了国际上流行的各种网络分析挖掘算法的复杂度都很大,导致大部分的分析工具软件的特性,并从功能、架构、技术角度重点介绍只能支持小规模的网络分析。当分析大规模的网络了有代表性的的两款科技文献分析软件 D-Dupe、数据时,工具软件的运行时间往往超出了用户可以ArnetMiner。并介绍了北京邮电大学智能通信软件接受的程度。针对于此,很多网络分析软件工具都与多媒体北京市重点实验室通信软件工程中心开发
提出了自己的解决方案,如 NWB、NetMiner等,将的网络数据分析工具 ITFNAV。通过对现有网络分析集群计算和网格计算技术引入分析软件的后台,利工具的特征研究,本文最后提出了网络分析工具进用大量空闲的计算资源实现并行计算,缩短计算时一步发展的方向。

 


 

0

阅读 评论 收藏 转载 喜欢 打印举报
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4006900000 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有