加载中…
个人资料
冯志伟文化博客
冯志伟文化博客
  • 博客等级:
  • 博客积分:0
  • 博客访问:8,660
  • 关注人气:1,291
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

术语抽取

(2021-08-17 19:54:14)
标签:

冯志伟

人工智能

语言学

自然语言处理

术语学

术 语 抽 取
Terminology Extraction

 

什么是术语抽取?

术语抽取(或术语识别是从特殊领域文本中获得表示领域概念术语的过程,传统的术语抽取主要依赖专家知识来手工制定规则以进行术语的识别与抽取,存在规则维护扩展困难、应用范围有限、可移植性差等问题。

 

自动术语抽取(automatic term extractionATE)通常结合了语言规则和统计信息,先利用语言处理器来提取候选术语例如名词、名词短语或 n-gram) ,然后应用统计方法通过局部和全局收集的特征对候选者评分,最后对评分后的候选词进行排名,以供后续选择和筛选。[1]

 

术语抽取有哪些方法?

术语抽取方法可分为无监督方法和有监督方法两大类。无监督方法通常利用语言学与统计学相结合的方法,从文本集中抽取术语,具有较少人工干预、较强的适用性和一致性等优点有监督方法采用机器学习方法,如最大熵模型[3]、条件随机场[45]等,通过学习训练文本特征,以抽取术语。[2]

 

语言学法:

采用语言学法的术语提取工具,通常通过匹配相似的词法、句法模式(比如形容词+名词模式、名词+名词模式,找出可能成为术语的词组。为此,要使用解析器,词性标记器和词法分析器来注释语料库内容。候选的术语可以通过不同的模式匹配技术进行过滤。显然,语言学法与语言紧密相关,因为术语的成分模式因语言而异。因此,使用语言学法的术语提取工具通常设计为只适用于一种语言,或紧密相关的几种语言,而不能轻易地适用于其他语言。因此,它们不太适合集成到通常与语言无关的TM系统中。

 

统计法:

使用统计法的术语提取工具往往是查找词汇项的重复序列。用户通常可以指定频率阈值,该频率阈值规定了,一个单词或单词序列必须重复多少次才能被视为候选术语。统计方法的主要优势是它与语言种类关系不大。

 

混合法:

术语提取中最常见的方法是混合法,这种方法同时使用语言学和统计学信息。 即使此类方法以统计学法为主,但也融入了句法规则和句法过滤,因此可以筛选具有特定语法结构的候选术语。

 


前沿论文推荐

1. 机器学习在术语抽取研究中的文献计量分析 

(作者:邱科达 马建玲)

文章梳理和总结基于机器学习的自动术语抽取的相关研究,为领域相关人员提供参考。CNKIEndNote的分析工具基础上,应用文献计量对主题的年度趋势和核心机构进行宏观分析,然后从抽取技术方法、数据集和评价以及应用3个方面进行主题内容分析。

 

2. 基于依存句法分析的中文专利候选术语选取研究

(作者:俞琰 陈磊 姜金德 赵乃瑄)

针对中文专利候选术语选取方法存在需要对不同的数据集分别制定不同的模式匹配规则、专利术语抽取准确性不高等问题,本文提出基于依存句法分析的中文专利术语选取方法,以提高中文专利术语抽取准确性。主要包括依存句法分析、剪枝、生成依存子树等三个主要步骤。首先对中文专利进行依存句法分析,得到依存树,对依存树进行剪枝,去除不符合要求的依存关系,生成依存子树,从中选取连续词串作为候选术语,以抽取中文专利术语。

 

3. 面向方志知识图谱的术语抽取模型迁移学习研究 

(作者:熊欣 王昊 邓三鸿)

针对方志资源的知识价值利用率极为有限的现状,探究面向方志知识图谱的自动化术语抽取,解决缺乏大规模标注语料的冷启动问题。构建由文本表示、特征提取、序列标注三层体系结构组成的TFT模型,通过远程监督实现源域标注语料到目标域方志文本的知识迁移,并以传统机器学习方法 CRF模型作为基准进行对比。

 

4. 融合GCN远距离约束的非遗戏剧术语抽取模型构建及其应用研究 

(作者:任秋彤 王昊 熊欣 范涛)

针对非遗传统戏剧提出一种效果更优的术语抽取模型,并构建出传统戏剧术语库。本文首先从术语类别、语义结构和文本长度上分析了戏剧语言特征。根据以上语言特征,本文以BERT-BiLSTM-CRF模型为基础,在BERT获得的字符表示上加入了词性和领域特征。之后在BiLSTM后加入图卷积网络(GCN),更好地捕捉句子中远距离词语的约束关系。

 

5. 术语自动提取工具在口译译前准备中的应用与效果研究

(作者:徐然)

本文评估了三种单语术语提取工具( TTC TermSuiteSyllabs Tools  Teaboat) ,具体考察三种工具中、英文单语术语提取的准确率,并讨论术语提取所存在的主要问题和技术挑战。评估显示 Syllabs Tools 的术语提取总体表现优于另外两种工具。该工具用于后续实验研究,以调查自动术语提取工具在口译译前准备中的实际应用效果。

 

6. 新能源专利文本术语抽取研究

(作者:孙甜 陈海涛 吕学强 游新冬)

本文提出了基于BERT-BiLSTM-CRF的新能源专利术语抽取方法,以自建的3002条新能源领域专利文本作为实验对象,在中文数据集上的实验结果达到了0.9211的精确率,0.9245的召回率以及0.9228F1值。与其他经典深度学习术语抽取模型相比,基于BERT-BiLSTM-CRF的新能源专利术语抽取模型能有效地将新能源领域专利文本中字符较多的长序列术语识别出来,提高术语抽取在实际应用中的效果。

BERT模型近年来频繁应用于术语抽取研究中。

BERT 模型是Google2018年提出的一种NLP模型,成为最近几年NLP领域最具有突破性的一项技术。在11NLP 领域的任务上都刷新了以往的记录,例如GLUESquAD1.1MultiNLI等。

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有