标签:
微软翻译中心微软研究院机器翻译语言模型苗语尼泊尔语 |
分类: 技术 |
编者按:如果你不会使用世界上任何一种主流语言,你将会面临怎样的信息和文化孤立?又或者你能流利地运用某种主流语言,却发现离自己的母语文化越来越远怎么办?为此,微软研究院研发了微软翻译中心,针对资源贫乏型语言提供有意义的机器翻译服务。
本文译自文章No Language Left Behind
作者:微软研究院学术合作部自然交互组总监Kristin Tolle
设想一下,如果你不会使用世界上任何一种主流语言,你将会面临怎样的信息和文化孤立,你的互联网体验又将会何等受限。事实上,这是一个全世界数十亿人正在面临的问题——由于语言不通,他们无法获取丰富的知识资源。
另一个与此相关的问题也影响着数以百万计的人们,他们说的最流利的虽然是某种主流语言,但其祖先的传统却源自另一种完全不同的语言。这些人发现,自己离祖先的文化越来越远,而这些文化则必须通过他们的母语才能充分理解。
为了借助计算的力量来解决这些问题,微软研究院很荣幸地宣布推出微软翻译中心。尤其令我们感到高兴的是,这种工具有望针对资源贫乏型语言提供有意义的机器翻译服务,并帮助研究人员建立更有针对性的语言模型。从最近在世界的两极——美国加州和亚洲尼泊尔——所主持的两项活动中,我深深地认识到了该翻译中心的价值。
点击观看微软翻译中心介绍视频:
用苗语吟唱加州之梦
2011年11月下旬,微软研究院学术合作部在加州州立大学弗雷斯诺分校举办了一次为期两天的苗族语言保护研讨会。会议期间,当地苗族社区为“白苗语-英语机器翻译器”提供了语料输入(白苗,又称苗道,是苗族的几种方言之一)。苗语是东南亚山地人的土著语言之一,这些人中有相当一部分现居住在美国、澳大利亚和法国。正因如此,许多苗族人在没有本民族传统文化和语言环境的情况下养育着自己的子孙。不仅如此,他们还要尽可能地融入在他们所居住地占主导地位的语言和文化中。
一般情况下,第二代长大后还备一定的双语能力,与他们的父母和其他长辈交谈时说苗语,而在学校和工作场所中使用英语。但是,他们自己有了孩子后,往往会对孩子们讲英语。这就是说,第三代长大后只能通过聆听其父母与祖父母的交谈来学习十分有限的祖先母语知识。苗语直到最近(还不到60年)才成为有书面文字的语言,很多能够说流利苗语的人有相当一部分可能都不识字。
这些因素导致了苗族语言在旅美苗族社区中的使用每况愈下,并且到了很严重的程度,语言保存因此成为苗族社区的重要议题之一。在加州的研讨会期间,微软研究院学术合作部与加州州立大学弗雷斯诺分校的语言学家Phong Yang教授合作,探索了用机器翻译作为保护苗族语言和文化的方法之一。
苗族社区参与的积极性给我们留下了深刻印象。各年龄段的社区成员——从儿童到爷爷奶奶,通过机器翻译中心的评审界面提出建议,并表达鼓励。他们的愿望很现实:没有指望计算机能够提供苗语-英语的完美翻译。一位苗族父亲打趣道:“它说的是‘苗式英语’,就像我的孩子。”但总体反应是非常积极的,表达了苗族社区保护本民族语言和文化的强烈愿望。
作为本次研讨会、微软翻译团队辛勤工作以及弗雷斯诺苗族社区持续努力的一项看得见、摸得着的成果,微软于2月21日在必应翻译上发布了苗语公开版,以此纪念“国际母语日”。
点击观看加州和尼泊尔两次活动视频:
在尼泊尔教导学生攀登语言科技高峰
在尼泊尔,微软研究院学术合作部与加德满都大学和非营利组织“语言技术肯德拉”共同主办了一次为期两天的“尼泊尔语言保护研讨会”。研讨会的目标是着手加强尼泊尔语在当今数字世界中的地位,使之成为世界主要语言之一,并改善单一尼泊尔语使用者获取非尼泊尔语互联网内容的能力。这些努力将有助于扩大了尼泊尔语的使用范围,并保持它的活力。作为资源相对贫乏但使用者众多(超过三千万人)的语言,尼泊尔语成为微软翻译中心试点的理想候选语言之一。
David Harrison是斯沃斯莫尔学院语言学教授,也是全球最著名的濒危语言专家之一,他与我共同主持了一场面向语言学家和翻译从业者的研讨活动,致力于翻译质量评审,以及获得对评审者界面有价值的反馈。第一天,翻译和编辑了大约1200个句子,第二天则完成得更多。与会者指出了一些缺陷,并提出了改进的建议。
与此同时,计算机科学专业的学生和教育工作者正在听取微软研究员Christophe Poulain和Sundar Poudel的指导。该讲座针对未来的计算机科学家和计算机科学教育工作者,指导他们借助在私人工作空间中的微软翻译API,使用新开发的尼泊尔语翻译模型——这个模型此时正在另一场研讨活动中得到改进,从而实现尼泊尔语和其他语言之间的自动翻译。通过对教育工作者的培训,我们为他们提供了工具,让他们回到各自所属机构后能够教会别人如何开发网络服务翻译应用程序,并由此培养自然语言处理领域的青年专家。
与会者们的热情和富有成效的工作证明,尼泊尔语是此次研讨会的明智之选。正如一名与会者所指出的那样:“如果我们能够翻译尼泊尔语,我们与外部世界的沟通就可以变得更容易。”另一位代表则指出:“乡村人不懂英语,所以如果我们为他们提供一个翻译器,他们一定会感觉不错,而且会觉得浏览外语网站变得更加轻松。”
我坚信,像微软翻译中心这样能够激发社区参与的翻译系统,在遏制资源贫乏型语言的衰落方面将带来积极地影响。但社区需要做出更加强有力的承诺,才能使之成为现实。机器翻译能够模仿人类学习一门新语言的过程。像人一样,翻译软件也需要相应的材料对两种语言进行比较阅读。它一定要接受训练,而且也会犯错误,但随着有更多机会接触到新的语言(数据),它一定会变得越来越好。积累系统可使用的语言数据,是上述这些研讨会等活动的首要实用价值之一,与会者们实际上是在教电脑如何讲自己的母语。
无论是否有助于保护与祖先文化之间的关联,或者将特定语言带入数字世界,微软翻译中心都彰显了微软对“借助技术,为社会带来积极变化”的持续参与和长期承诺。
相关阅读:
自然人机交互与大数据——2012微软技术节构想未来计算愿景___________________________________________________________________________________
欢迎关注
微软亚洲研究院人人网主页:http://page.renren.com/600674137
微软亚洲研究院微博:http://t.sina.com.cn/msra