昨天一位在年初西北师范大学外国语学院餐见过语料库培训班的学员在QQ上提问。
“antconc好像处理中文不太强大啊?除了转码为unicode或者utf-8,还有啥其他建议吗?”看来这位学员还是学得比较好的,记住了当时在培训课堂上锁交代的注意事项。比如使用AntConc要注意文本的代码在默认状态下是utf-8。不过,这位学员认为AntConc处理中文文本不太强,是对AntConc不太了解。其实,这款小软件非常好用,如果文本量不是特别大,对一般的研究来说,是绰绰有余了。AntConc为绿色软件,不用安装;另外,AntConc可以同时打开多次,呈现多个独立的工作界面,便于将不同的项目进行比较。当然,AntConc接受中文文本的态度有点出乎我们的意料。因此,我们用AntConc处理中文应该注意一些事项。第一,AntConc不接受未经分词或者词性标注的中文文本,因为AntConc处理文本是以词为基本单位的,无论是词表,主题词表,词族,索引等等,都是以词为基本单位的。当然,如果用户特别要以“字”为单位处理中文文本,这是很容易办的事情,将每个汉字后面加一个空格就可以了。其二,凡是要用AntConc来处理的语料,无论是文件名还是文件夹的名称,都不要用中文去命名。用中文命名的结果是,AntConc在处理时根本不会有反应。如果是语料文件用中文命名,加载到AntConc中会变成问号“?”
加载中,请稍候......