加载中…
个人资料
网易门户数据挖掘
网易门户数据挖掘
  • 博客等级:
  • 博客积分:0
  • 博客访问:10,352
  • 关注人气:6
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

语义相似度算法简介

(2013-08-29 10:57:50)
标签:

语义相似度

算法

分类: 算法

语义相似度(semantic similarity) 、语义相关度(semantic relatedness)或语义距离(semantic distance)如果不从概念层次上严加区分通常都是指文本或词语之间在涵义或语义内容上相像的程度。语义相似度的计算在文本挖掘、自然语言处理和生物医学等领域都有广泛的应用。本文简单介绍一下语义相似度计算的分类及典型方法。  

一、      基于拓扑相似

通常借助于构建本体或着语义信息网络等知识拓扑结构,然后通过计算拓扑结构中概念、词语的所在的边或者节点之间的关联性来确定他们的相关度。这种相似可以认为是基于知识的。最常用的知识结构(这个概念不准确)是WordNet,常见的算法有:

1.         Leacock & Chodorow [1]提出

语义相似度算法简介 

其中length是至两个概念之间最短节点计数距离,D是整个结构最大深度。

 

2.         Wu & Palmer[2]提出

语义相似度算法简介

 

其中:LCS 是指least common subsumer

 

3.         Resnik[3]提出

语义相似度算法简介

 

LCS跟上同义,IC information content由下面公式计算得出

语义相似度算法简介

 

其中P(c)是指在知识拓扑中出现概念c的实例的概率。

 

4.         Lin提出[4]

语义相似度算法简介

 

基于Resnik方法。

 

5.         Jiang & Conrath[5]提出

 

语义相似度算法简介

同样基于Resnik方法。 

 

二、      基于统计相似

这种相似计算需要有一个语料库,以下是几个典型算法: 

1.         Normalized Google Distance (NGD)[5]

NGD基于Google搜索关键词返回的hits数,两个关键词在搜索结果共现的词数越多他们语义上越有可能相似。词语xyNGD距离由以下方式算出:

语义相似度算法简介

 

其中NGoogle索引的页面数乘以平均每页的可搜索的条数,f(.)为搜索某一关键词返回的hits数。

 

2.         Pointwise Mutual Information (PMI) [6]

NGD类似,也与两个词语w1w2在一个大的语料库中的共现词数。

语义相似度算法简介

 

p(.)为出现某个词的概率。

 

3.         Latent semantic analysis (LSA)[7]

LSA算法核心为通过奇异矩阵分解(SVD)将文本分解为词汇、文档的特征矩阵,从而可以进一步应用到语义相似、搜索等方面。LSA详细介绍可以在网上搜索相关资料。

 

附录 

[1].     Leacock, C., and Chodorow, M. 1998. Combining local context and WordNet sense similarity for word sense identification. In WordNet, An Electronic Lexical Database. The MIT Press.

[2].   Wu, Z., and Palmer, M. 1994. Verb semantics and lexical selection. In Proceedings of the Annual Meeting of the Association for Computational Linguistics.

[3].     Resnik, P. 1995. Using information content to evaluate semantic similarity. In Proceedings of the 14th nternational Joint Conference on Artificial Intelligence

[4].     Lin, D. 1998. An information-theoretic definition of similarity. In Proceedings of the International Conf. on Machine Learning.

[5].     http://en.wikipedia.org/wiki/Normalized_Google_distance

[6].     Turney, P. 2001. Mining the web for synonyms: PMI-IR versus LSA on TOEFL. In Proceedings of the Twelfth uropean Conference on Machine Learning (ECML-2001).

[7].     Landauer, T. K.; Foltz, P.; and Laham, D. 1998. Introduction to latent semantic analysis. Discourse Processes 25.

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有