最近工作涉及到Parallel Corpus,故对其进行了整理:
一:国内主要语料库总汇http://www.yygrammar.com/Article/201202/2773.html
http://s4/middle/8af10696nbba71c1404b3&690<wbr>Corpus平行语料库库统计" TITLE="NLP:Parallel
<wbr>Corpus平行语料库库统计" ACTION-DATA="http://s4/middle/8af10696nbba71c1404b3&690" ACTION-TYPE="show-slide" STYLE="margin: 0px; padding: 0px; list-style: none;" />
二:《基于双语语料库的汉英视点体对比研究》序言
http://blog.sina.com.cn/s/blog_72d083c70102ds9a.html
目前国际上已建立了很多外文的平行语料库。例如,
-- 在加拿大人们收集加拿大议会辩论的英法双语稿建立了Hansard英法平行语料库。该平行语料库是最早建立的平行语料库之一,在平行语料库的研究中被许多学者广泛使用。
-- Johanson等人在挪威奥斯陆大学(University
of
Oslo)建立了英语-挪威语平行语料库,包括一个核心语料库和一个增补语料库,1997-2001年又增加了德语、荷兰语、葡萄牙语的对应语料。
-- 欧盟议会语料的多语语料库(包括11
种欧盟语言)。
-- Resnik等人在美国马里兰大学建立的Bible(圣经)九国语言的平行语料库
-- JRC-ACQUIS
多语平行语料库。
-- 捷克国家语料库(Czech
National Corpus Czech-Other Languages)。
-- TELRI(Trans-European
Language Resources Infrastructure)多语言平行料库(Plato 的《理想国》多语言译本)。
-- Scandinavian语料库。
-- ES-PC英语-瑞典语平行语料库。
-- PEPC
葡萄牙语-英语平行语料库。
-- ET10-63
英语-法语平行语料库。
-- CRATER西班牙语-法语-英语平行语料库。
已建立的中文/外文平行语料库有:
英国伯明翰大学(The
University of Birmingham)建立的中英对应语料库。
Gao(高照明)收集台湾Sinorama杂志文章建立的Sinorama中英对应语料库。
英国兰卡斯特大学(Lancaster
University)的Babel英汉语料库(544,095 词,句子级对齐)。
北京外国语大学中国外语教育研究中心的通用汉英对应语料库(约3000万汉字/英文词)。
北京大学汉语语言学研究中心的CCL汉英双语语料库
(233589对句子)。
北京大学计算语言学研究所的汉英/汉日双语语料库(汉英句对齐语料:200101句对,汉英词对齐语料:10102句对,汉日句对齐语料:20000句对)。
哈尔滨工业大学的英汉双语语料库(40-50万句子对,在句子、短语、词汇三级实现双语对齐)。
中国科学院软件研究所的英汉双语语料库(15万对句子)。
中国科学院自动化研究所的英汉双语语料库(香港法律英汉双语对齐语料31万句子对,并从英汉双解词典中摘取例句25000个句子对)。
哈尔滨工业大学计算机学院语言技术研究中心面向奥运的中英日三语语料库(220余万字,52227个三语句对)。
东北大学的英汉双语语料库(100万词)。
LDC香港新闻英汉双语对齐语料库(36294)。
香港法律英汉双语对齐语料库(31万句子对)与在此基础上建立的双语法律信息系统BLIS(21万句子对)。
内蒙古大学结合汉蒙机器翻译系统,建立了近20万词的汉蒙对照政府文献语料库。
新疆大学建立的面向法律文档的汉维双语对齐语料库收集了2000对汉维句子(句子级对齐)。
从国内外平行语料库建设情况来看,国际上的研究一开始侧重于欧洲语言,最早的平行语料库大多是西方语言之间的平行语料库,90年代后期开始建设涉及到汉语的平行语料库。几年来,平行语料库的研究价值越来越得到国内学者的关注。许多大学和研究机构开始进行汉语和外语的平行语料库建设,现在已建成了为数不少的平行语料库。其中,北京外国语大学中国外语教育研究中心建设的通用汉英对应语料库设计严谨,有一定规模(建成后约3000万词),是研究英汉双语的难得资源。