DBLP文献管理系统(一)简介

标签:
数据处理大作业 |
l
这里是CMHowl,准大三学生。
大二的时候学校布置了一个题为《DBLP文献管理系统》的大作业,相当有难度。从开题到完成课题,感觉很有收获。所以想跟广大网友分享我对于一个完整的文献管理系统的设计思路和原理。
说实话做到最后,成品软件也比较不人性化(比如智能提示之类的功能没有实现),但基础的大数据处理还是做到了的,所以希望您能抱着批判的态度来看这一系列的文章。
另外,由于本人的知识面有限,本系列文章仅针对C++初学者的角度来讲解,如有意见或建议,请留言,感谢。
l
首先介绍一下DBLP这个数据集(http://dblp.org/):
计算机科学文献库DBLP Computer Science Bibliography在学术界有很好的声誉,给人们带来了极大的便利,其权威性也得到了研究界的高度认可。但DBLP没有提供对中文文献的收录和检索功能,国内的权威期刊及重要会议的论文缺乏一个类似的集成检索系统。DBLP原来的意思是数据库系统和逻辑编程的英文缩写 ,即DataBase systems and Logic Programming 。它提供计算机领域科学文献的搜索服务,但只储存这些文献的相关元数据,如标题,作者,发表日期等。截至2009年7月已经有超过1,200,000文献。和一般流行的情况不同,DBLP并没有使用数据库而是使用XML存储元数据。(节选自百度百科)
DBLP数据集数据量很大,而且其内容在xml的基本协议下做到了复杂多变,很适合用于大型数据的分析实验。而且其信息组织形式基于XML格式,这就要求我们利用XML独特的文件结构来处理这份大数据(当然,其实也是可以用数据库来解决的,我在网上看到过Python版本的,大家自己找找吧)。
l
1.
2.
3.
l
目前支持以下功能:
1. 基本搜索功能。输入作者名,能展示该作者发表的所有论文信息。输入完整的论文的题目,能展示该论文的其他相关信息。
2. 相关搜索。输入作者名,能展示于该作者有合作关系的其他所以作者。
3. 作者统计功能。输出写文章最多的前100名作者。
4. 热点分析功能。分析每一年发表的文章中,题目所包含的单词中,出现频率排名前10的关键词。
5. 部分匹配搜索功能。给定若干个关键字,能快速搜索到题目中包含该关键字的文章信息
6. 可视化显示。通过图形化界面,展示作者之间合作关系图及其相关文章信息。
l
http://s12/mw690/002iktwuzy7cTEFudGXfb&690
l
本文为博主原创文章,如需转载请联系博主获得授权。