加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

用Word做语料库标注工具

(2016-10-18 15:01:15)
标签:

corpustool

ms-word

语料库标注

源语

目的语

分类: 语料库话题
        这里记录的是前一向手工标注语料库后检查的感想,也可以说是经验总结。没有做这项工作之前,没有想到会出现这么一些问题,不经过这一步工作,也很难想到用什么样的方法去解决这些问题。
        一、本次标注所使用的大的软件环境为MS-Word2003。Word在文字的显示,编辑,表格等方面具有很好的表现,对于规模较大,需要较长时间面对屏幕的语料库工作者,考虑到视角效果和工作效率等方面的因素,Word应该是一较好的选择。
       二、标注的具体工具为Word环境下宏。通过VB设计和编辑了所需要的标注符号,并且通过“工具”下的“自定义”功能区将编制的标注符分门别类镶嵌在工具栏上,便于操作。编注时,将要标注项选定,点击工具栏上的对应标注符,一对......便将要标注的项目起始包括起来。
       三、标注完之后的检查核对工作非常重要。有可能源语文本中的item数目和目的语文本中标注出来的数目不一致,核对了若干遍仍然还差那么一点。你是追求完美,还是暂时止步?如果追求完美又有什么比较有效的办法呢?其实,左右两侧数目就只差2。如果将源语或者目的语一侧的项目选为红色等较为显眼的颜色,再通过“查找”功能从下至下,一一很对,专注颜色不一致的,或者从一边跳到另一边的等特殊情况都是我们应该注意的。通过这一检查你知道,标注的时候,将本该是源语中的符号标注到目的语中去,或者将本来只有是目的语中的符号标注到源语中去的情况都可能存在。通过Word的凸显和查找比较容易查出其中可能存在的问题。简单地通过软件在双语文件中统计出源语中符号和目的语中的符号数目相等并不能表明标注是完全对的
       四、初步的统计工作。语料标注以及核对完毕后的初步统计可以用Word“查找”下勾选“突出显示所有在该范围查找到的项目(T)”便可以非常方便地统计要统计的项目频率。另外,如果标注符号中通过系列数字如1,2,3,4等组成符号,在统计时也能方便不少。比如“^#”就能代表阿拉伯数字,在统计同一类由数字组成标注符号的频率时就方便多了。
     外面都有很多专门的语料库标注软件了,为什么还要这种不专业的软件呢?比如,UAM Corpustool不是更加专业吗?的确UAMCorpusTool是专门设计来给语料库工作者进行语料库标注的,它有很多比较专业的功能。CorpusTool集标注,检索和统计于一身,的确在语料库方面有很好的潜力。
      考虑到人工标注容易出错,核对不易,Word自有其优越的地方。比较再三,UAM CorpusTool有其高大上的地方,而Word在功能上也有其不能替代的地方。
      CorpusTool自称为Text Annotation for the 21st Century
      只能是期待中吧
http://www.corpustool.com/img/ct.gif

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有