机器翻译家 ——陈肇雄的故事
(2012-12-05 14:46:35)
标签:
杂谈 |
分类: 阅读篇 |
圣经《创世记》记录着一段关于人类语言的故事:据说,亚当的子孙本来说的都是同一种语言,他们不仅生活得有滋有味,而且还打算修造一座贝伯尔塔直通天堂。上帝看到这种情况深感忧虑,害怕人类将来会不服管束,于是下界来把语言搞乱,使人们彼此都听不懂对方的话语,无法交流,塔自然修不成了。
还在电脑降临人世之前,人类就萌生出一种极富魅力的梦想,希望有一天能制造出一种机器,请它在讲不同语言的人中间充当翻译。把这种翻译机揣在衣兜里就能走遍世界:到了英国,它讲英语,到了法国,它又会讲法语……,无论操何种语言的外国人与你谈话,只要拨一下开关,它都能在两种不同语言间充当“第三者”,准确地表情达意。一旦我们拥有它,又何愁“天下谁人不识君”?
“机器翻译”,本质上是对人类思维和语言活动的模拟,这是人工智能中最困难而又最有现实价值的课题。从20世纪20年代,各国科学家就在此领域辛勤耕耘,但面临的困难重重,让机器理解人类的语言谈何容易!80年代初,人类社会大步迈向信息时代,相互之间的交流急剧增长,社会需要带来巨大的推动力,人们把希望寄托于电脑,机器翻译被列为21世纪世界十大科技难题的第一位。世界上各发达国家聚集各路高手,不惜投入亿万资金,试图率先突破机译的难关,抢占翻译机器的巨大市场。
早在1985年,中国科学院学部委员、计算机专家高庆狮教授,对他的博士生陈肇雄说:“给我搞出机器翻译来。”陈肇雄当然掂得出这话的分量,但他没有丝毫犹豫,准备按照导师的要求,向世界水平的机器翻译发起冲击。
20来岁的陈肇雄凭什么去冲击这个世界级的难题?
1961年出生在福建莆田木兰溪的陈肇雄,父亲是一位乡村中学老师,母亲干农活操持家务,艰难地哺育着七个孩子。陈肇雄排行老三,上有两个姐姐,下有一个弟弟和三个妹妹。在这种环境下,陈肇雄基本上无人管束,在玩耍中打发童年的光阴。
直到有一天 ,祖母知道了他糟糕的学习成绩,陈肇雄被狠狠地训斥了一顿,他从此开始发奋。渐渐地,他已不满足课堂的正规进度,而是超越教材刻苦自学。恢复高考的第二年,他以优异成绩考入南京理工大学。四年后,他又以总分第一名的成绩,考上高庆狮教授的研究生,并提前9个月完成硕士研究生学业,继续攻读博士学位。
高教授是我国当时仅有的两位计算机专业的学部委员之一,高教授让陈肇雄搞机器翻译课题的时候,他正在钻研智能计算机逻辑程序语言。虽说放弃了前景十分乐观的项目,去啃机器翻译这块硬骨头,但陈肇雄却喜欢上了这个更有挑战性的工作。
向机器翻译挑战的确非常艰辛。他回忆说:“选择这个课题,我做了耗尽毕生精力可能一无所获的准备。作这一选择时我自己都觉得有点悲壮。”由于这个项目涉及到人工智能、计算机科学、认知科学和语言学等多个学科,在整整三年时间里,陈肇雄不得不广泛涉猎各种相关学科知识,学习国内外机译界多年积累的经验。凭着“初生之犊不怕虎”的勇气,陈肇雄在学习中继承,在继承中创新,独创性地提出一套“基于不完备知识的机译分析”理论,突破了复杂多义区分、上下文相关处理、多种知识交叉分析等等一系列关键难题,终于在理论上有了重大突破。陈肇雄的《智能型机器翻译理论体系》发表以后,国际上给予了高度评价,博士学业没有完成的陈肇雄也被中科院破格提为副研究员。
1988年, 陈肇雄的研究被列入国家863高科技研究计划。也就是在这年,他在第12届国际计算机语言学大会上宣读的有关论文,得到了国外专家高度的评价,大会主席称赞他“指出了一个雄心勃勃的新方向”。然而,陈肇雄心中的目标决不仅仅只是一个“方向”,他要把它做成中国高性能的翻译机器。接下来又是一个奋战的三年。 陈肇雄和一批青年科学家,仅靠863计划拨给的44万元有限经费, 为理论框架设计语言规则,编制翻译软件。那堆积成3米多高的稿纸,不知道耗费了他们多少心血,熬过了多少不眠之夜……
年复一年的艰苦奋斗,这需要什么样的精神来支撑啊!陈肇雄那一届毕业的计算所硕士生共36人,先后有35人出国,只剩下最先得到国外邀请、并四次婉拒国外邀请的陈肇雄。在他遇到与科研无关的烦恼时,他曾随手给德国一所大学发了一封电传,表示希望去学习一段时间。四个小时后,对方就发来表示欢迎的电传,陈肇雄却轻轻地把它放在一边。他说:“出国不是就不爱国,但我留在国内,确实是有感情上的原因,能在国内为我们的计算机事业发展出力,我感觉更实在,更有意义。”
经过整整六年的卧薪尝胆, 陈肇雄的“智能型英汉翻译系统IMT/EC863”通过了国家鉴定,它在总体上超过了国内外同类系统,处于国内外领先地位。1992年,陈肇雄成了中国科学院最年轻的研究员之一。两个月后,他把数万个词汇、数十万个对应词和数十万个翻译规则压缩到100K字节,完成了袖珍型电子翻译机的软件开发,能在几秒钟内实时翻译一个整句。香港的一家公司购买这一软件,不久,世界上第一台“揣在衣兜里”的袖珍型翻译电脑──快译通EC-863A, 被中国人率先造了出来。人类多年来的夙愿,终于迈出了“美梦成真”的一步。
1993年,快译通EC-863获中国科学院科技进步一等奖,陈肇雄也因此获得中国科学院第三届青年科学家奖一等奖,并在1994年被评为全国十大杰出青年科学家。陈肇雄一时名传中外,许多国外科学机构、著名公司表示愿意用重金聘用他,一家加拿大公司答应给他100万美元的股份和1万美元的月薪,他面临着又一场考验。
众所周知,科研成果从理论到实践,再转化为商品才能进入市场,对科技人员来说,这是一个完全陌生的领域。陈肇雄偏偏放弃了诸多重金诚聘的公司,选择了自主开发、艰苦创业的道路。不过,他对自己是有信心的。还在南京读大学时,他就曾编了个软件程序,卖了几万元,在中科院读研究生时,又编了个软件卖了十几万元,攻读博士期间他第三次搞的某软件程序售价70多万美元。我国著名的科学家严济慈曾经说过:“一个科学家如果走出实验室,他的生命就会消失。”与严老相交多年的陈肇雄也知道这个道理。他为自己设计的是一条科研人员与企业家互相兼容的策略。
1997年6月,陈肇雄带领与他一起多年奋斗的中科院200多名员工,创建了华建电子有限公司,注册资金达100万,其中30%是以知识产权入股。陈肇雄出任公司总裁后,他没有离开实验室,一边搞科研课题,一边带博士生和硕士生。凭借国家44万元的项目经费,他们推出了“智能型英汉机器翻译系统IMT/EC863”,荣获国家科委颁发的科学技术进步一等奖。而他领导的公司也在短短的三年里,在电子辞典、掌上电脑、网上通、网络信息处理系统上获得长足的发展,不仅使我国的机器翻译技术日趋成熟,而且公司资产达到6个亿,连美国IBM公司也代理了他们的产品。
电脑业界之外的人大都不了解华建公司,所以有人说华建是“墙内开花墙外香”。陈肇雄在解释这种现象时说:“华建推出的机器翻译软件,在我国、和海外等地十分受欢迎。因为这些地区的企业和个人每天都有大量与国际企业打交道的业务。庞大的华建的机器翻译软件轻点鼠标,马上转换需要的中、英文版本。可是这种业务特色不久也会出现在国内的企业里,因为我国马上就要‘入世’。”事实的确如此,在我国正式加入世贸组织以后,至少需要增加专业翻译人员100万。随着因特网的发展,人们对机器翻译软件需求量也会大增,华建的大名以及它的产品将会被越来越多的人所熟知。
陈肇雄的心中,还有一个更大的目标。在他四处奔走和策划下,华建和四通共同组成了中关村软件集团。陈肇雄认为,“中关村”应该是我国最好的品牌之一,他说:“我在国外软件企业时,看到这些企业都有中国人,这说明中国人一点不笨。所以我有一个想法,要搞一个大型软件集团,在软件行业争得一席之地。对于在中关村软件集团我任什么职务无所谓,只希望能够将近年新开发的技术成果尽快转化为生产力,形成比机器翻译更大的产业。”
陈肇雄对中关村软件集团的未来充满信心,既然他能用最少的时间、最少的投入、开放出最高的质量、最好的产品“人机翻译系统”,成为我国软件的拳头产品,那么,继续前进,开发更多更好的软件又有什么不可能呢。随着因特网高速发展,计算机软件已经成长为具有辉煌发展前景的产业。尤其在应用软件领域,如网络深层次处理软件技术、智能人机接口技术、嵌入式应用软件技术等新的领域,都等待着人们去开发。占领这一巨大的市场,不仅是中关村软件集团的机遇,这也是陈肇雄准备迈过的人生下一个台阶。
就目前已有的成就来看,机器翻译离终极目标仍相差很远。例如,会翻译的机器还不能“听译”和“口述”,还不能准确地翻译不规范的口语,还不能做到本文开头所设想的那样:“只要拨一下开关,它都能在任何语言之间充当第三者”。换言之,它的智能还赶不上人类优秀翻译专家的功底。
机器翻译面对的是人类的语言,是人类思维绽开的最鲜艳最美丽的花朵。在语言的领域里耕耘,正可谓“海阔凭鱼跃,天空任鸟飞”。拥有中国科学院计算机语言信息工程研究中心主任、博士生导师、华建集团总裁,以及清华大学、北京理工大学、吉林大学等高校兼职教授等多重身份的陈肇雄,不会停下他的脚步。他曾语重心长地对更年轻的青年人说:“再远大的理想如果没有敬业精神支撑,就都是一种空想和幼稚。”

加载中…