知网Hownet的基本概念
(2014-12-02 19:13:36)
标签:
it |
分类: Ontology |
团购推荐的项目中需要建立知识库,参考了中文语义词汇库知网Hownet,借鉴了它的思想:在特征词汇之间建立语义连接。知网基本概念如下:
2.知网
2.1基本概念
(1)词语:汉语词语。
(2)概念:一个词语可以有多个概念。如:词语“打”有两个概念,一是“打”人,而是“打”车。概念也可以称为义项。
2.1.1义原
(1)义原:基本语义单元,用来描述概念。义原存在于一个上下位关系树状的义原结构中。初此之外,义原之间还有同义、反义、对义等8种关系,因此义原其实是保存在一个复杂的图中。同时,义原也是一个词语,存在于词语词典中。所有概念大部分是用且仅是用义原描述的。义原是最基本的、不易于再分割的意义的最小单位。
(2)我们设想所有的概念都可以分解成各种各样的义原。同时我们也设想应该有一个有限的义原集合,其中的义原组合成一个无限的概念集合。
(3)我们有一条原则:我们已有的义原一定要能够描述全部的概念。这里有一个比较硬性的规定,即当我们发现一个具有多个概念的词语,例如八个,而我们已有的义原不能够把这八个概念区别开来时,我们就必须对我们的标注集加以调整,这是绝大多数的情况。
(4)所有的义原根据上下位关系构成了一个树状的义原层次体系。假设两个义原在这个层次体系中的路径距离为d,根据公式(1),我们可以得到这两个义原之间的语义距离:
其中p1和p2表示两个义原(primitive),d是p1和p2在义原层次体系中的路径长度,是一个正整数。α是一个可调节的参数。
(5)用这种方法计算义原相似度的时候,我们只利用了义原的上下位关系。实际上,在《知网》中,义原之间除了上下位关系外,还有很多种其他的关系,如果在计算时考虑进来,可能会得到更精细的义原相似度度量。
(6)在知网的知识描述语言中,在一些义原出现的位置都可能出现一个具体词(概念),并用圆括号( )括起来。但具体词在《知网》的语义表达式中只占很小的比例。所以,我们近似认为概念只由义原表示。
2.1.2词语
(1)词语:汉语词语。
(2)概念:一个词语可以有多个概念。如:词语“打”有两个概念,一是“打”人,而是“打”车。概念也可以称为义项。
2.1.3概念
知网的运算和描述的基本单位是:万物,其中包括物质的和精神的两类,部件,属性,时间,空间,属性值以及事件。
(1)属性值和数量值
美味: DEF=aValue|属性值,taste|味道,good|好
八成: DEF=qValue|数量值,amount|多少,many|多
巨大1:DEF=aValue|属性值,size|尺寸,big|大
巨大2:DEF=QValue|数量值,amount|多少,many|多
大量1:DEF=aValue|属性值,tolerance|气量,generous|慷
大量2:DEF=QValue|数量值,amount|多少,many|多
(2)属性
味道:DEF=attribute|属性,taste|味道,&edible|食物
气量:DEF=attribute|属性,tolerance|气量,&human|人
班次:DEF=quantity|数量,amount|多少,&transport|运送
比价:DEF=quantity|数量,rate|比率,&price|价格
(3)事物
所谓事物包含下列的概念类型:物质(包括有生命和无生命)、精神(包括情感、欲望、思想、经验)、时间、空间、事情以及它们的部件。
男士:DEF=human|人,male|男
高手:DEF=human|人,able|能,desired|良
难题:DEF=problem|问题,difficult|难,undesired|莠
心脏:DEF=part|部件,%AnimalHuman|动物,heart|心
CPU:DEF=part|部件,%computer|电脑, heart|心
拔河:DEF=fact|事情,exercise|锻练,sport|体育
雇主: DEF=human|人,*employ|雇用
雇员: DEF=human|人,$employ|雇用
熨斗: DEF=tool|用具,*AlterForm|变形状,#level|平
假期: DEF=time|时间,@rest|休息,@WhileAway|消闲
旅馆: DEF=InstitutePlace|场所,@reside|住下,#tour|旅游
救生艇:DEF=ship|船,*rescue|救助
洗衣机:DEF=tool|用具,*wash|洗涤,#clothing|衣物
2.1.4关系
概念和义原之间的主要关系有:
(a) 上下位关系 (由概念的主要特征体现,请参看《知网管理工具》)
(b) 同义关系(可通过《同义、反义以及对义组的形成》获得)
(c) 反义关系(可通过《同义、反义以及对义组的形成》获得)
(d) 对义关系(可通过《同义、反义以及对义组的形成》获得)
(e) 部件-整体关系(由在整体前标注 % 体现,如“心”,“CPU”等)
(f) 属性-宿主关系(由在宿主前标注 & 体现,如“颜色”,“速度”等)
(g) 材料-成品关系(由在成品前标注 ? 体现,如“布”,“面粉”等)
(h) 施事/经验者/关系主体-事件关系(由在事件前标注* 体现,如“医生”,“雇主”等)
(i) 受事/内容/领属物等-事件关系(由在事件前标注 $ 体现,如“患者”,“雇员”等)
(j) 工具-事件关系(由在事件前标注 * 体现,如“手表”,“计算机”等)
(k) 场所-事件关系(由在事件前标注 @ 体现,如“银行”,“医院”等)
(l) 时间-事件关系(由在事件前标注 @ 体现,如“假日”,“孕期”等)
(m) 值-属性关系(直接标注无须借助标识符,如“蓝”,“慢”等)
(n) 实体-值关系(直接标注无须借助标识符,如“矮子”,“傻瓜”等)
(o) 事件-角色关系(由加角色名体现,如“购物”,“盗墓”等)
(p) 相关关系(由在相关概念前标注 # 体现,如“谷物”,“煤田”等)
2.1.5相似性
(1)两个概念之间的相似性用其义原之间的相似性表示。即针对两个概念的义原向量,分量配对计算相似性,去加权和。如果向量维度不同,则用空不全,分量与空之间的相似性为一常量。
(2)两个义原之间的语义距离:
对于两个词语W1和W2,我们记其相似度为Sim(W1,W2),其词语距离为Dis(W1,W2),那么我们可以定义一个满足以上条件的简单的转换关系:
其中α是一个可调节的参数。α的含义是:当相似度为0.5时的词语距离值。
(1)
其中i可以理解成概念义原向量的不同分量类型。β为权重,Σβ=1。
2.1.6相关性
(1)一个概念的相关概念的查找主要是“顺藤摸瓜”。一级相关概念指与其相隔一个义原的概念,二级相关指与其相隔两个义原的概念,等等。如:“医院”与“医生”相关性大,由于只相隔一个“医治”义原;而相似性差距很大,因为“医院”的一个义原是“场所”,而“医生”的第一个场所是“人”。
(2)相似性与相关性的关系:
*如果两个词语非常相似,那么这两个词语与其他词语的相关性也会非常接近。反之,如果两个词语与其他词语的相关性特点很接近,那么这两个词一般相似程度也很高。(刘群)
*如果两个词非常相似,那么他们往往很相关;如果两个词很相关,并不一定它们很相似。(curthan)
2.2和其他ontology的区别
(1)wordnet:同义词树的组织方式。每个词是基本unit,没有义原的概念。
(2)framenet:frame semantic。用frame semantic描述语义,最大的用途是语义角色标注,即潜层语义分析。目前包含1000+个frame,10000+个词汇,100000+例句。