加载中…
个人资料
怡心老者
怡心老者
  • 博客等级:
  • 博客积分:0
  • 博客访问:133,843
  • 关注人气:82
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

[转载]听董振东老师关于“知网”报告的总结

(2012-03-03 09:35:07)
标签:

转载

分类: 应用翻译
    周日下午,机器翻译沙龙邀请董振东老师做了一场关于“知网”的报告。董老从人们对“知网”的误解出发,对“知网”的内容体系和结构功能作了深入浅出的阐述。将近四个小时的报告中,董老几乎没有任何休息,虽然年事已高却丝毫不影响他对这份事业的热情。他缜密的思维和风趣的话语体现出一名大家的风范,让在场的每一位听众收获良多。
    一提到“知网”,不少人脑子里面首先冒出的概念就是“中国知网”,这个“知网”和董老的“知网”可是完全不同的两个概念。“中国知网”是中国知识基础设施(China National Knowledge Infrastructure,CNKI)的产物,是全球领先的数字出版平台,同时为海内外各行各业提供知识与情报服务。董老的“知网”英文名称为HowNet,它是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。
    “知网”能够用来做什么?这点感觉还是参考“知网”主页http://www.keenage.com/,后生晚辈就不敢班门弄斧了。董老研究“知网”的最初动机来自于机器翻译。如何能够让机器翻译实现与人类翻译同样的功能是目前所有研究机器翻译人的最终理想,而“知网”则为机器翻译提供了一种新的知识源。由于自己研究的方向就是统计机器翻译,所以想从机器翻译的角度出发,分析自己对“知网”的一些理解。
    董老在沙龙中提到,翻译必须具备的三个知识是:语言内部的知识,语言之间的知识,以及语言外部的知识。比如翻译一个英文单词bank时,如果bank所在的句子附近出现river、dry等词语时,那么这个单词的中文意思就是“河岸”;如果该单词句子附近出现money,check等词语时,则很有可能是“银行”的意思。基于统计的机器翻译在处理这种词语翻译歧义时,依靠的是语言模型。事实上,几乎所有的统计机器翻译把最后的歧义处理等工作交给了语言模型。目前,语言模型的概念基本上还是基于词的n-gram语言模型,这种模型虽然简单,但是非常有效,而且特别适合于海量数据的统计。现在n-gram语言模型用在统计翻译上的最大n元数目不过是5,因此很难从上下文中获得足够的信息,于是也闹出不少笑话来。分别用google翻译和百度翻译为例翻译下面一句话:
    When we got to the bank, we found the river was dry.
    两种工具得到的结果都是,“当我们到了银行,我们发现河干。”很明显,基于统计的机器翻译在上下文翻译上缺乏一定信息指导,只是简单的进行的字面上的翻译,而没有进行更深层的理解。这里董老还提到了华建机器翻译系统,我们同样翻译上面的例子。华建的服务器是不是出问题了……这里我们就展开无限的遐想,按照董老的说法,它的翻译结果应该是“当我们到了岸边,我们发现河干了。”但是董老也指出,如果上面例子中的river换成另外一个相同的词语streamlet,这时华建的系统也搞不定了。这说明基于统计和基于规则都存在一定的问题。统计面临着数据稀疏的问题,在董老看来,在知识所构成着一片汪洋大海中,这种稀疏永远都无法避免。对于规则而言,问题似乎更加明显,毕竟任何规则都无法覆盖层出不穷新词怪词以及变化多端的语法现象。
    沙龙中,董老还提出一个概念即“是否句法分析真的适用于中文”,这个问题值得探讨,但估计很难得到一个令所有人都信服的结论。王怡对此大胆的做了一个猜想,是不是目前国内的语言学家利用英文中的主谓宾等分析中文句子本身就是一个歧途或者错误。董老为此举例说明,比如英文中对于care,careful,carefully有不同的形态,而中文仅仅是一个仔细就包括了一切。此外,在英文里,very可以修饰任何形容词表示程度,而在中文里这种现象就不成立。我们可以说“很好”,但是很少能够看到“很巨大”这种说法。这里董老还举了一个例子,比如翻译“他昨天没有来”得到的英文是“He didn’t come yesterday”,那“他没有昨天来”呢?大家想一想看怎么翻译。
    在报告的最后,董老介绍了基于知网的机器翻译系统。这个系统目前还在建设阶段,许多功能还没有完善,不过已经可以看到良好的翻译性能,特别是在处理翻译歧义这个方面。这里董老采用的是一种基于“意群”的分析方法,董老称之为sense colony。这种方法建立在“知网”的基础之上,通过相同或相近的意群为不同的翻译结果进行打分,从中选择得分最高的译项。董老的这个方法与统计的方法完全不同,这里完全没有统计概率的任何知识,但同样得到了良好的翻译结果。比如翻译“The room is bright”和“The boy is bright”,统计机器翻译的结果大家查一下google和百度看看,而采用“意群”的方法则得到了正确的翻译结果。
这里自己仅仅对董老报告关于翻译的部分进行了简单的描述,具体“知网”的功能还是参考董老的网站。报告虽然很短,但是提出的问题却是机器翻译已经面临了多年的问题,直到今天仍然没有完全解决,只要看看google翻译和百度翻译就知道啦!机器翻译的路还很长,需要从事这一领域研究的人不断努力践行。
    董老说,有人提出到2025年机器翻译就能实现与人同样翻译性能,他却没有这么乐观。是否真的可以实现呢?也许是,也许不是,但可以肯定的是关于机器翻译的研究永远不会终止。

0

  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有