术语抽取
(2021-08-17 19:54:14)
标签:
冯志伟人工智能语言学自然语言处理术语学 |
术 语 抽
取
Terminology
Extraction
什么是术语抽取?
术语抽取(或术语识别)
自动术语抽取(automatic term
extraction,ATE)通常结合了语言规则和统计信息,先利用语言处理器来提取候选术语(
术语抽取有哪些方法?
术语抽取方法可分为无监督方法和有监督方法两大类。无监督方法通常利用语言学与统计学相结合的方法,从文本集中抽取术语,具有较少人工干预、较强的适用性和一致性等优点;
语言学法:
采用语言学法的术语提取工具,通常通过匹配相似的词法、句法模式(比如“形容词+名词”模式、“名词+名词”模式,找出可能成为术语的词组。为此,要使用解析器,词性标记器和词法分析器来注释语料库内容。候选的术语可以通过不同的模式匹配技术进行过滤。显然,语言学法与语言紧密相关,因为术语的成分模式因语言而异。因此,使用语言学法的术语提取工具通常设计为只适用于一种语言,或紧密相关的几种语言,而不能轻易地适用于其他语言。因此,它们不太适合集成到通常与语言无关的TM系统中。
统计法:
使用统计法的术语提取工具往往是查找词汇项的重复序列。用户通常可以指定频率阈值,该频率阈值规定了,一个单词或单词序列必须重复多少次才能被视为候选术语。统计方法的主要优势是它与语言种类关系不大。
混合法:
术语提取中最常见的方法是混合法,这种方法同时使用语言学和统计学信息。
前沿论文推荐
1.
机器学习在术语抽取研究中的文献计量分析
(作者:邱科达
文章梳理和总结基于机器学习的自动术语抽取的相关研究,为领域相关人员提供参考。CNKI和EndNote的分析工具基础上,应用文献计量对主题的年度趋势和核心机构进行宏观分析,然后从抽取技术方法、数据集和评价以及应用3个方面进行主题内容分析。
2. 基于依存句法分析的中文专利候选术语选取研究
(作者:俞琰
针对中文专利候选术语选取方法存在需要对不同的数据集分别制定不同的模式匹配规则、专利术语抽取准确性不高等问题,本文提出基于依存句法分析的中文专利术语选取方法,以提高中文专利术语抽取准确性。主要包括依存句法分析、剪枝、生成依存子树等三个主要步骤。首先对中文专利进行依存句法分析,得到依存树,对依存树进行剪枝,去除不符合要求的依存关系,生成依存子树,从中选取连续词串作为候选术语,以抽取中文专利术语。
3. 面向方志知识图谱的术语抽取模型迁移学习研究
(作者:熊欣
针对方志资源的知识价值利用率极为有限的现状,探究面向方志知识图谱的自动化术语抽取,解决缺乏大规模标注语料的冷启动问题。构建由文本表示、特征提取、序列标注三层体系结构组成的TFT模型,通过远程监督实现源域标注语料到目标域方志文本的知识迁移,并以传统机器学习方法
4. 融合GCN远距离约束的非遗戏剧术语抽取模型构建及其应用研究
(作者:任秋彤
针对非遗传统戏剧提出一种效果更优的术语抽取模型,并构建出传统戏剧术语库。本文首先从术语类别、语义结构和文本长度上分析了戏剧语言特征。根据以上语言特征,本文以BERT-BiLSTM-CRF模型为基础,在BERT获得的字符表示上加入了词性和领域特征。之后在BiLSTM后加入图卷积网络(GCN),更好地捕捉句子中远距离词语的约束关系。
5. 术语自动提取工具在口译译前准备中的应用与效果研究
(作者:徐然)
本文评估了三种单语术语提取工具( TTC TermSuite、Syllabs Tools
6. 新能源专利文本术语抽取研究
(作者:孙甜
本文提出了基于BERT-BiLSTM-CRF的新能源专利术语抽取方法,以自建的3002条新能源领域专利文本作为实验对象,在中文数据集上的实验结果达到了0.9211的精确率,0.9245的召回率以及0.9228的F1值。与其他经典深度学习术语抽取模型相比,基于BERT-BiLSTM-CRF的新能源专利术语抽取模型能有效地将新能源领域专利文本中字符较多的长序列术语识别出来,提高术语抽取在实际应用中的效果。
BERT模型近年来频繁应用于术语抽取研究中。
BERT