加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

文献检索常用算符

(2012-06-20 09:15:57)
标签:

杂谈

分类: 信息检索与管理

逻辑算符  位置算符  截词符限制算符 

优先算符()

固定词组或短语“”()

加权检索:在检索词后给一个数值表示其重要性,现在大多信息检索工具采用“+”“-”表示提问的分量

限定符 in =  []

 

(1) 逻辑算符
 逻辑算符(logical operator), 也称布尔算符(Boolean operator),用来表示两个检索词之间的逻辑关系,常用的有三种:逻辑与(and) 、逻辑或(or)和逻辑非(not)。与表示必须同时满足,或表示可以满足一个条件或都满足,非只出现前面条件。

  如果一个检索式中包含若干逻辑关系,则其执行优先顺序为: NOT, AND, OR,最可靠的办法是将需先执行的部分放在括号内。

(2) 位置算符

位置逻辑检索算符又称全文查找逻辑算符,相邻度检索算符,原文检索符。由于布尔检索的“AND”运算要求AND两边的检索词在同一记录中同时存在才能命中文献,这就可能会引起误组配而造成大量误检,而位置逻辑检索是以原始记录中检索词与检索词间特定的位置关系为逻辑运算的对象,检索词用位置算符相连,就可以弥补布尔检索的缺陷。此外,这种检索也不必依赖先组式词表而直接使用自由词进行检索,因而可使检索结果更准确。

位置逻辑检索算符可分为
       词位置检索算符
       同句检索算符
       同字段检索算符
       同记录检索算符
常用的有(W), (nW), (N), (nN), (L), (S), (F)等。
   (W)与(nW)算符
     W是with的缩写。(W)或用( )表示其连接的两个检索词必须按序出现,中间不允许插词,只能有一空格或标点、符号。如:high(W)class 命中的记录中出现的匹配词可能有:high class 或high-class。
  (nW)与(W)类似, 只是它允许插词,插词量小于或等于n个。
  如:silicon(1W)sensor 命中的记录中出现的匹配词除silicon sensor外,还可能有:silicon integrated sensor, silicon image sensor, silicon-based sensor等。
  如:silicon(2W)sensor 命中的记录中出现的匹配词除上例的外,还可能会有:silicon angular rate sensor, silicon-based chemical sensor等等。
   (N)与(nN)算符
  N是near的缩写。(N)表示其连接的两个检索词的顺序可以互易,但两词间不允许插词。(nN)中的n表示允许插词量少于或等于n个。
  如:internet(N)accessing 命中记录中出现的匹配词可能有:
  internet accessing, accessing internet。
  如:internet(1N)accessing 命中记录中除上例的外,还会可能有:accessing internet, accessing the internet, internet /intranet accessing等。

(X)与(nX)——(X)算符要求其两边的检索词完全一致,并以指定的顺序相邻,中间不允许插入任何单词或字母;(nX)算符则表示两边的检索词之间最多可以插入n个单元词,但两边的检索词也必须一致。

(S)算符
  词位置检索是很有用的检索技术,它可以规定词组中各词的前后次序,防止错误的搭配和输出;它也可以替代词组中的禁用词。DIALOG系统有9个禁用词:AND、FOR、THE、AN、FROM、TO、BY、OF、WITH,如果在编制检索式时碰到禁用词,就要用词位置算符代替它。


同句检索算符:要求参加检索运算的两个词必须在同一自然句中出现,其先后顺序不受限制,可用算符(S)(S是Sentence的首字母)。同句检索放宽了词位置检索的要求,使表达同一概念但不满足词位置条件的文献也可以被检索出来,从而提高了查全率。

(F)算符
  F是Field 的缩写。(F)表示其连接的两个检索词必须出现在同一字段中,字段不限,词序不限。
  以上所有算符的书写用大小写均可。算符执行的优先顺序是按检词之间的关系紧密程度确定的,越紧的关系越先执行。一般将需要先执行的部分可放在括号内。
  不同算符的比较
  两个词由不同的算符组成不同的检索式,其检索结果显然不同,也就是说检索策略的变化将影响检索的结果。比如同样两个词用关系较紧的算符其检索结果中的记录一定比用关系较松的来得少。

(3) 截词符
所谓截词检索,就是将通配符如“*”、“?”或“$”等等,放在检索词中检索者认为合适的地方截断,用截断的词的一个局部进行检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中文献。这样,检索者不必输入完整的检索词。截词方式有多种,按截断的字符数量分,有有限截断和无限截断;按截断的位置分,有后截断、前截断、中间截断。 

截词符(truncation operator),也称统配符(wild card), 在Dialog系统中用 ? 号表示。?号加在不完整的词或词干之后,或是插在一个词的中间来表示词后或词中可添加的随机字符。其作用是减少检索词的输入而保证相关检索概念的涵盖,同时也方便解决语言文字拼写方面的差异(如美式英语和英式英语),避免漏检。截词有:非限定性截词、限定性截词和中间截词等。

   非限定性截词
  截词符(truncation operator),是在一个词尾加一个 ?号,表示在其后可添加任意多个字符,这些字符都被作为检索词进行检索。
  如:smok?将对若干词进行检索,包括:smoke, smoky, smoked, smoker, smokes, smokers, smoking, smokeless等等。

   限定性截词
  限定性截词(limited truncation), 是在一个词尾加有限个 ?号,n个?号表示其后可添加的字符数少于等于n个。
  如:smok??将对smoke, smoky, smoked, smoker, smokes等进行检索。对于最多允许添加一个字符的情况, 则用 ? ? 的形式表示。
  如;smok? ?将只对 smoke, smoky进行检索。

   中间截词
  中间截词(embedded truncation), 是在一词中间出现若干个?号,表示可插入若干个字符。
  如:ioni?ation将对ionisation和ionization进行检索。
  如:cent??line将对centerline和centreline进行检索。

 

(4)限制检索算符:在编制检索式时,使用字段限制检索符可以限定检索词在数据库中出现的范围,对命中太多的记录再行筛选。如检索式:AU=Gordon? AND PY=199?,表示查找Gordon所写的、于1990年后发表的所有文献。这种字段检索可由代表文献内容特征的基本索引(Basic Index)字段和代表文献外表特征的辅助索引(Additional Index)字段中的单元词(Word)或多元词(Phrase)构成,前者含有所有与主题内容相关的词,如书目型数据库中的题目、文摘、规范词字段中的叙词等,后者含有记录中除基本索引字段外的那部分信息,如作者、语种、出版年等。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有