加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

知网Hownet的基本概念

(2014-12-02 19:13:36)
标签:

it

分类: Ontology

团购推荐的项目中需要建立知识库,参考了中文语义词汇库知网Hownet,借鉴了它的思想:在特征词汇之间建立语义连接。知网基本概念如下:

 

2.知网

2.1基本概念

(1)词语:汉语词语。

(2)概念:一个词语可以有多个概念。如:词语“打”有两个概念,一是“打”人,而是“打”车。概念也可以称为义项。

2.1.1义原

(1)义原:基本语义单元,用来描述概念。义原存在于一个上下位关系树状的义原结构中。初此之外,义原之间还有同义、反义、对义等8种关系,因此义原其实是保存在一个复杂的图中。同时,义原也是一个词语,存在于词语词典中。所有概念大部分是用且仅是用义原描述的。义原是最基本的、不易于再分割的意义的最小单位。

(2)我们设想所有的概念都可以分解成各种各样的义原。同时我们也设想应该有一个有限的义原集合,其中的义原组合成一个无限的概念集合。

(3)我们有一条原则:我们已有的义原一定要能够描述全部的概念。这里有一个比较硬性的规定,即当我们发现一个具有多个概念的词语,例如八个,而我们已有的义原不能够把这八个概念区别开来时,我们就必须对我们的标注集加以调整,这是绝大多数的情况。

(4)所有的义原根据上下位关系构成了一个树状的义原层次体系。假设两个义原在这个层次体系中的路径距离为d,根据公式(1),我们可以得到这两个义原之间的语义距离:

        …… (3)

其中p1p2表示两个义原(primitive),dp1p2在义原层次体系中的路径长度,是一个正整数。α是一个可调节的参数。

(5)用这种方法计算义原相似度的时候,我们只利用了义原的上下位关系。实际上,在《知网》中,义原之间除了上下位关系外,还有很多种其他的关系,如果在计算时考虑进来,可能会得到更精细的义原相似度度量。

(6)在知网的知识描述语言中,在一些义原出现的位置都可能出现一个具体词(概念),并用圆括号( )括起来。但具体词在《知网》的语义表达式中只占很小的比例。所以,我们近似认为概念只由义原表示。

2.1.2词语

(1)词语:汉语词语。

(2)概念:一个词语可以有多个概念。如:词语“打”有两个概念,一是“打”人,而是“打”车。概念也可以称为义项。

2.1.3概念

知网的运算和描述的基本单位是:万物,其中包括物质的和精神的两类,部件,属性,时间,空间,属性值以及事件。

(1)属性值和数量值

美味: DEF=aValue|属性值,taste|味道,good|好

八成: DEF=qValue|数量值,amount|多少,many|多

巨大1:DEF=aValue|属性值,size|尺寸,big|大

巨大2:DEF=QValue|数量值,amount|多少,many|多

大量1:DEF=aValue|属性值,tolerance|气量,generous|慷

大量2:DEF=QValue|数量值,amount|多少,many|多

(2)属性

味道:DEF=attribute|属性,taste|味道,&edible|食物

气量:DEF=attribute|属性,tolerance|气量,&human|人

班次:DEF=quantity|数量,amount|多少,&transport|运送

比价:DEF=quantity|数量,rate|比率,&price|价格

(3)事物

所谓事物包含下列的概念类型:物质(包括有生命和无生命)、精神(包括情感、欲望、思想、经验)、时间、空间、事情以及它们的部件。

男士:DEF=human|人,male|男

高手:DEF=human|人,able|能,desired|良

难题:DEF=problem|问题,difficult|难,undesired|莠

心脏:DEF=part|部件,%AnimalHuman|动物,heart|心

CPU:DEF=part|部件,%computer|电脑, heart|心

拔河:DEF=fact|事情,exercise|锻练,sport|体育

雇主: DEF=human|人,*employ|雇用

雇员: DEF=human|人,$employ|雇用

熨斗: DEF=tool|用具,*AlterForm|变形状,#level|平

假期: DEF=time|时间,@rest|休息,@WhileAway|消闲

旅馆: DEF=InstitutePlace|场所,@reside|住下,#tour|旅游

救生艇:DEF=ship|船,*rescue|救助

洗衣机:DEF=tool|用具,*wash|洗涤,#clothing|衣物

2.1.4关系

概念和义原之间的主要关系有:

(a) 上下位关系 (由概念的主要特征体现,请参看《知网管理工具》)

(b) 同义关系(可通过《同义、反义以及对义组的形成》获得)

(c) 反义关系(可通过《同义、反义以及对义组的形成》获得)

(d) 对义关系(可通过《同义、反义以及对义组的形成》获得)

(e) 部件-整体关系(由在整体前标注 % 体现,如“心”,“CPU”等)

(f) 属性-宿主关系(由在宿主前标注 & 体现,如“颜色”,“速度”等)

(g) 材料-成品关系(由在成品前标注 ? 体现,如“布”,“面粉”等)

(h) 施事/经验者/关系主体-事件关系(由在事件前标注* 体现,如“医生”,“雇主”等)

(i) 受事/内容/领属物等-事件关系(由在事件前标注 $ 体现,如“患者”,“雇员”等)

(j) 工具-事件关系(由在事件前标注 * 体现,如“手表”,“计算机”等)

(k) 场所-事件关系(由在事件前标注 @ 体现,如“银行”,“医院”等)

(l) 时间-事件关系(由在事件前标注 @ 体现,如“假日”,“孕期”等)

(m) 值-属性关系(直接标注无须借助标识符,如“蓝”,“慢”等)

(n) 实体-值关系(直接标注无须借助标识符,如“矮子”,“傻瓜”等)

(o) 事件-角色关系(由加角色名体现,如“购物”,“盗墓”等)

(p) 相关关系(由在相关概念前标注 # 体现,如“谷物”,“煤田”等)

2.1.5相似性

(1)两个概念之间的相似性用其义原之间的相似性表示。即针对两个概念的义原向量,分量配对计算相似性,去加权和。如果向量维度不同,则用空不全,分量与空之间的相似性为一常量。

(2)两个义原之间的语义距离:

对于两个词语W1W2,我们记其相似度为Sim(W1,W2),其词语距离为Dis(W1,W2),那么我们可以定义一个满足以上条件的简单的转换关系:

         …… (1)

其中α是一个可调节的参数。α的含义是:当相似度为0.5时的词语距离值。

(1)       两个概念之间的语义距离:

 

其中i可以理解成概念义原向量的不同分量类型。β为权重,Σβ=1。

 

2.1.6相关性

(1)一个概念的相关概念的查找主要是“顺藤摸瓜”。一级相关概念指与其相隔一个义原的概念,二级相关指与其相隔两个义原的概念,等等。如:“医院”与“医生”相关性大,由于只相隔一个“医治”义原;而相似性差距很大,因为“医院”的一个义原是“场所”,而“医生”的第一个场所是“人”。

(2)相似性与相关性的关系:

*如果两个词语非常相似,那么这两个词语与其他词语的相关性也会非常接近。反之,如果两个词语与其他词语的相关性特点很接近,那么这两个词一般相似程度也很高。(刘群)

*如果两个词非常相似,那么他们往往很相关;如果两个词很相关,并不一定它们很相似。(curthan)

 

2.2和其他ontology的区别

(1)wordnet:同义词树的组织方式。每个词是基本unit,没有义原的概念。

(2)framenet:frame semantic。用frame semantic描述语义,最大的用途是语义角色标注,即潜层语义分析。目前包含1000+个frame,10000+个词汇,100000+例句。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有