加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

批量统计若干类词频总数方法

(2016-10-05 11:23:09)
标签:

语料库

词性标注

antconc

分类: 语料库话题

        因研究需要统计语料中的实词总数,如果时间允许,当然可以一个一个去数。不过这种方法在今天似乎是不可行的,时间不允许不说,出现的错误对研究造成影响也不划算。

      原本想通过AntConc的Advanced Search基于文件的检索功能来完成。该文件中放入实词的符码,这样就一次性完成一批检索了。文件中实词词性符码以及相应的检索表达式如下:

*/n
*/nt
*/nd
*/nl
*/ni
*/nhf
*/nhg
*/ns
*/ni
*/nz
*/v
*/vd
*/vl
*/vu
*/a
*/f
*/m
*/q
*/mq
*/d

不过实践了一下并没有动静。AntConc的反馈是“No seach term has been entered ”。看来AntConc并不认识以上表达式。

取消其中的Wildcart变成

/n
/nt
/nd
/nl
/ni
/nhf
/nhg
/ns
/ni
/nz
/v
/vd
/vl
/vu
/a
/f
/m
/q
/mq
/d

这次同样没有结果。不知是什么原因。最后,只好使用正常的检索功能,不过还是不想一个一个去检索,因为正常检索中有一个OR的逻辑表达式,即用竖线“|”将不同的检索项分开,就可以将若干项通过OR的逻辑表达式来检索了。这次的表倒式为:*/n|*/nt|*/nd|*/nl|*/ni|*/nhf|*/nhg|*/ns|*/ni|*/nz|*/v|*/vd|*/vl|*/vu|*/a|*/f|*/m|*/q|*/mq|*/d|

幸运,这次AntConc启动了,并且有了结果:

http://s14/mw690/001QNgnKzy75nshUtd3ad&690

虽然结果已经出来了,但是疑问还在,前面两种方法问题出在哪里呢?

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有