加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

问题:用AntConc如何检索出动词offer

(2018-09-09 11:19:47)
标签:

英文文本

treetagger

antconc

lemma

标注

分类: 语料库话题
问题:Tree tagger标注过的英文语料,运用Antconc,怎样方便地检索作为动词的offer的频率呢?试了一些方法感觉都不好用
     这个问题涉及到offer一个词形两个功能的问题。如何在表达式中既标出offer这个形式,又和动词关联呢?我想到了Treetagger3.0词形标注lemma功能,见下图。
       标注的时候,输出形式选择最右边的wor_POS_lemma。这样用AntConc检索的时候,表达式可以这样设计:*_VV?_offer,检索结果如下图。
     多余的想法 原来还想到不标注的情况进行检索,正好该学员又提出是不是动词bring的使用频率可以用*_VV?_bring来进行检索。我毫不思索地回答,不怕麻烦的话可以用bring|brings|brought|bringing来进行检索,但是,写完表达式,有立马发现这其中的小问题,bringring到底算动词还是名词,或者是形容词呢?这样一问,就发现其中可能存在的问题。使用未经标注的语料进行检索,可以检索出大部分结果,但是,其中也存在误差。如果你在乎误差,最好先标注语料。

     补遗更正
     该学员后来留言,使用*_VV?_discover检索用Treetagger标注过的英文语料,得到31个,而其实,未经标注的粗语料中discover的原形就有110,如图
                   
                        http://s11/bmiddle/001QNgnKzy7nuytjPZwaa&690

      这当然不正常,问题出现在何处呢?我想问题可能出现在:1)表达式错误导致过滤掉一些符合条件的形符了;2)语料标注过程中出现问题符号或者格式上的错误,导致原本符合条件的形符增加了杂质;3)检索软件设置上的问题,导致表达式过滤掉一些形符。按照以上思路,逐个检查。其中少不了浏览查看Treetagger附件中的tagset,结果发现动词赋码集中表示原形动词的赋码是VV, 其它的动词在此基础上加上一个大写字母,比如VVD表示动词过去式,而我的表达式VV?指涵盖三个大写字母代表的动词,至于动词原形则被过滤掉了。修正表达式为:*_VV*_discover得到结果为97,检索界面见图。






0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有