语义相似度算法简介_网易门户数据挖掘

http://blog.sina.com.cn/u/3196991400

首页博文目录关于我

个人资料

网易门户数据挖掘

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：0

博客访问：541
关注人气：6
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

语义相似度算法简介

(2013-08-29 10:57:50)

标签：

语义相似度

算法

分类：算法

语义相似度(semantic similarity) 、语义相关度(semantic relatedness)或语义距离(semantic distance)如果不从概念层次上严加区分通常都是指文本或词语之间在涵义或语义内容上相像的程度。语义相似度的计算在文本挖掘、自然语言处理和生物医学等领域都有广泛的应用。本文简单介绍一下语义相似度计算的分类及典型方法。

一、基于拓扑相似

通常借助于构建本体或着语义信息网络等知识拓扑结构，然后通过计算拓扑结构中概念、词语的所在的边或者节点之间的关联性来确定他们的相关度。这种相似可以认为是基于知识的。最常用的知识结构（这个概念不准确）是WordNet，常见的算法有：

1. Leacock & Chodorow [1]提出

http://s11/mw690/be8e37a8tx6CefuAoXg1a&690

其中length是至两个概念之间最短节点计数距离，D是整个结构最大深度。

2. Wu & Palmer[2]提出

http://s15/mw690/be8e37a8tx6CefuBxYq7e&690

其中：LCS 是指least common subsumer。

3. Resnik[3]提出

http://s9/mw690/be8e37a8tx6CefuE6Ok88&690

LCS跟上同义，IC 为information content由下面公式计算得出

http://s15/mw690/be8e37a8tx6CefuCxnE8e&690

其中P(c)是指在知识拓扑中出现概念c的实例的概率。

4. Lin提出[4]

http://s8/mw690/be8e37a8tx6CefuFzAXb7&690

基于Resnik方法。

5. Jiang & Conrath[5]提出

http://s15/mw690/be8e37a8tx6CefuHC1g0e&690

同样基于Resnik方法。

二、基于统计相似

这种相似计算需要有一个语料库，以下是几个典型算法：

1. Normalized Google Distance (NGD)[5]

NGD基于Google搜索关键词返回的hits数，两个关键词在搜索结果共现的词数越多他们语义上越有可能相似。词语x和y的NGD距离由以下方式算出：

http://s8/mw690/be8e37a8tx6CefuIO4nf7&690

其中N为Google索引的页面数乘以平均每页的可搜索的条数，f(.)为搜索某一关键词返回的hits数。

2. Pointwise Mutual Information (PMI) [6]

跟NGD类似，也与两个词语w1和w2在一个大的语料库中的共现词数。

http://s7/mw690/be8e37a8tx6CefuKfxc56&690

p(.)为出现某个词的概率。

3. Latent semantic analysis (LSA)[7]

LSA算法核心为通过奇异矩阵分解(SVD)将文本分解为词汇、文档的特征矩阵，从而可以进一步应用到语义相似、搜索等方面。LSA详细介绍可以在网上搜索相关资料。

附录

[1]. Leacock, C., and Chodorow, M. 1998. Combining local context and WordNet sense similarity for word sense identification. In WordNet, An Electronic Lexical Database. The MIT Press.

[2]. Wu, Z., and Palmer, M. 1994. Verb semantics and lexical selection. In Proceedings of the Annual Meeting of the Association for Computational Linguistics.

[3]. Resnik, P. 1995. Using information content to evaluate semantic similarity. In Proceedings of the 14^th nternational Joint Conference on Artificial Intelligence

[4]. Lin, D. 1998. An information-theoretic definition of similarity. In Proceedings of the International Conf. on Machine Learning.

[5]. http://en.wikipedia.org/wiki/Normalized_Google_distance

[6]. Turney, P. 2001. Mining the web for synonyms: PMI-IR versus LSA on TOEFL. In Proceedings of the Twelfth uropean Conference on Machine Learning (ECML-2001).

[7]. Landauer, T. K.; Foltz, P.; and Laham, D. 1998. Introduction to latent semantic analysis. Discourse Processes 25.

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：Mapreduce中的join操作

后一篇：HBase在数据统计应用中的使用

新浪BLOG意见反馈留言板　欢迎批评指正

语义相似度算法简介

语义相似度

算法

一、 基于拓扑相似

二、 基于统计相似

附录

一、基于拓扑相似

二、基于统计相似