标签:
杂谈 |
分类: 资讯中心 |
舍得这里所讲的语料库,通俗点讲就是句库,把平时看到的中英对照句子收集在一起,便于查询。
对于这类语料库来说,关键是要有一个查询速度够快的搜索引擎,其次是操作足够方便,用雪人CAT来做语料库的平台,正好符合这两点要求。
一、语料库的用途
语料库主要用途是:
1.查询英文句子,作为范例参考,或用于英文翻译;
2.通过中文查询英文的表达方法;
二、为何选择雪人CAT作为语料库平台
雪人CAT是一个翻译软件,从严格意义上讲,这算不得什么语料库的正统工具。但用雪人CAT有以下几点好处:
1.对语料素材格式要求较低,只要将英汉句子用特定分隔符分开就行(比如说TAB空格),雪人CAT中还带有一个非常不错的双语对齐工具,可用于素材整理;
2.导入语料操作非常方便;
3.查询速度非常快,一个拥有38万条语料的库,查询时通常不超过3秒;
4.查询非常方便,可用空格将关键词隔开,就像使用搜索引擎一样;
三、语料的收集
这里所谓的语料,就是中英对照的句子,只要有网络,我们可以很容易收集到这类素材,比较常用的途径有:
1.现成的辞典数据库,当然前提是你能用数据库工具打开;
2.其他人整理好的文本;
3.提供双语例句的在线辞典(比如有道)或其它类似网站(比如句酷);
4.中英对照的文章,不过这类文章需要经过处理后方可导入;
语料素材的格式很简单,推荐使用TXT(文本)文件,每一行存放一句英文和一句对应的中文,两个句子之间用TAB空格隔开。这样的文件就可以在雪人CAT中导入。
四、语料库导入方法
语料库只是我们通俗的叫法,由于雪人CAT是个翻译软件,在其内部对应的叫法是 “记忆库”。
具体的记忆库导入方法如下:
1.打开雪人CAT;
2.打开菜单“文件->新建->英译中项目”;
http://s1/middle/5f2d67f94c814c89e56a0&690
3.打开菜单“项目管理 ->导入记忆库”;
http://s12/middle/5f2d67f907a687a79b66b&690
4.在“导入记忆库”窗口中找到事先准备好的语料素材(TXT文件),并打开;
5.等待程序处理,处理速度跟素材的多寡成正比;
导入结束后最好再做一次导出记忆库,以便保存起来以后再用。
五、语料库查询方法
1.打开菜单“工具 ->记忆库搜索”;
http://s9/middle/5f2d67f94c814c8caab88&690
2.你会看到一个很阳春的窗口,在原文中输入要查询的内容,比如“play chess”:
http://s5/middle/5f2d67f94c814c9087644&690
结果立刻就呈现出来了。
我们也可以在”译文“中输入文字,注意要先清空”原文 “中的文字。
关键词可以用空格隔开,比如”讨论 政治 问题“:
http://s5/middle/5f2d67f94c814c91a4c44&690
这样的搜索用法和我们平时用谷歌、百度来搜索的习惯很接近。
我们往记忆库中导入的中英例句越多,这个记忆库发挥的作用就会越大。