基于关系指数和表示学习的领域集成实体链接

引用本文
蒋胜臣, 王红斌, 余正涛, 线岩团, 王红涛. 基于关系指数和表示学习的领域集成实体链接. 自动化学报, 2021, 47(10): 2376−2385 doi: 10.16383/j.aas.c180705
Jiang Sheng-Chen, Wang Hong-Bin, Yu Zheng-Tao, Xian Yan-Tuan, Wang Hong-Tao. Domain integrated-entity links based on relationship indices and representation learning. Acta Automatica Sinica, 2021, 47(10): 2376−2385 doi: 10.16383/j.aas.c180705
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180705
关键词
集成实体链接,特定领域,表示学习,关系指数
摘要
本文针对现有方法不能很好结合文本信息和知识库信息的问题, 提出一种基于关系指数和表示学习的领域集成实体链接方法.首先, 本文构建了特定领域知识库; 其次, 运用表示学习从文本信息中得到的向量表示计算实体指称项的上下文、主题关键词、扩展词三个特征的相似度; 然后, 利用知识库中的关系信息计算候选实体的关系指数; 最后, 将这三种相似度及关系指数相融合, 用于实体链接. 实验结果表明, 相较于现有方法, 本文方法能够有效地提高F1值, 并且该方法不需要标注语料, 更加简单高效, 适应于缺少标注语料的特定领域.
文章导读
实体链接是指将文本中存在歧义的实体正确链接到知识库中无歧义的候选实体的过程[1-2],
实体链接的相关研究有助于知识库的自动填充[3], 也有助于信息检索的研究[4], 同时实体链接与跨文本指代消解、词义消岐, 实体消岐等诸多自然语言研究领域有着紧密联系. 目前关于实体链接的研究方法,
主要思想是通过计算实体指称项与其候选实体的多种特征相似度, 选择知识库中无歧义实体进行链接.
早期研究以单实体为对象,
Bunescu[5]和 Ganea等[6]使用词袋模型计算指称项与候选实体的相似度, 选取相似度最高的候选实体作为目标实体;
Cucerzan[7]和Nguyen等[8]通过维基百科页面锚文本、重定向页面等信息计算指称项与候选实体的相似度;
Zeng[9]
近些年随着深度学习在自然语言中的应用, 利用表示学习计算语义相似度成为一种新的思路[13-14]. 随着Bengio等[15]提出表示学习模型, 通过表示学习表征实体深层语义信息计算相似度成为实体链接任务的新趋势[16-17]. Mikolov等[18]和Goldberg[19]对向量空间中词表示的有效嵌入进行了评估; Kar等[20]将表示学习用于特定任务领域的实体消歧; Moreno等[21]等通过扩充锚文本对文本中的单词和知识库中的实体进行联合学习得到相应的向量表示形式, 从而进行实体链接.
以上研究都是在通用领域, 其有丰富的通用语料和消歧特征[22]; 而对于特定领域,
往往存在语料不足, 另外流行度等消歧特征不明显的问题,
针对这些问题,
本文提出了一种新的基于关系指数和表示学习的领域集成实体链接方法. 首先, 构建特定领域知识库,
以作为实体链接的基础; 其次, 通过LDA主题模型、word2vec模型和TransE模型训练本文收集到的背景语料和特定领域知识库中的三元组,
得到蕴含知识和主题信息的实体指称项和候选实体的向量表示; 再利用得到的向量表示和LDA主题模型抽取实体指称项所在主题的领域关键词; 然后, 结合词扩展, 得到实体指称项的扩展词;
再利用得到的特征, 计算指称项与候选实体的上下文、领域关键字、扩展词三种特征相似度; 同时利用知识库中丰富的关系信息,
得到候选实体的关系指数; 最后, 将三种特征相似度和关系指数相融合,
得到最后的相似度. 本文的主要贡献主要有:
1)利用表示学习, 同时将文本词向量表示和知识库的知识表示嵌入到同一个语义空间, 融合了文本信息和知识库信息;
2)收集了语料, 获取了特定领域相关知识,
构建了特定领域知识库;
3)将关系属性融入到实体链接中, 实现了实体的语义属性和关系属性的融合.
图

图
本文针对现有的实体链接方法无法将文本信息和本地知识库信息充分相结合, 提出了一种简单高效的基于关系指数和表示学习的特定领域集成实体链接方法. 利用表示学习将文本信息和知识库信息相融合, 简单高效且适应于特定领域语料偏少的特点. 实验结果表明, 该方法与现有的实体链接方法相比, 不需要标注语料, 其实体链接准确率和F1值比较理想, 同时更适应于语料偏少的特定领域. 下一步的工作是对已经构建的小规模特定领域知识库进行扩充和完善, 同时不断挖掘领域文本中特有的属性特征, 改进实验效果.
作者简介
蒋胜臣
昆明理工大学信息工程与自动化学院硕士研究生. 主要研究方向为自然语言处理,
知识图谱.
E-mail:
王红斌
博士,
昆明理工大学信息工程与自动化学院副教授. 主要研究方向为智能信息系统,
自然语言处理,
信息检索.
E-mail:
余正涛
博士,
昆明理工大学信息工程与自动化学院教授. 主要研究方向为自然语言处理,
机器翻译,
信息检索.本文通信作者.
E-mail:
线岩团
昆明理工大学信息工程与自动化学院博士研究生. 主要研究方向为自然语言处理,
信息抽取,
机器翻译.
E-mail:
王红涛
昆明理工大学信息工程与自动化学院硕士研究生. 主要研究方向为自然语言处理, 信息抽取.
E-mail: