加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

机器识别手写汉字的难点所在

(2012-12-11 09:41:47)
标签:

汉字识别

分类: 学术

手写汉字的机器识别一直是一个困绕着研究人员的疑难问题。不但现在如此,而且将来还会如此,这是由机器计算能力和人类认字能力的不同性质所决定的。事实上,与人类认字能力相比,手写汉字的机器识别系统就显得相当“简单粗糙”了。虽说经四十多年的研究发展,在样本字库的建立、文本行字的切分、预分类、特征提取、匹配方法、细分类、识别字典和词句确认等方面出现了众多的研究成果,但就人类认字能力的基本原理方面的探索研究,还依然显得匮乏。我在本书中,尽管努力本着从人类认字规律的协动识别思想出发,综合了几乎所有出现在手写汉字识别研究中的成熟技术,但依然回避了许多更重要的实质性问题,无法从根本上给出解决手写汉字机器识别的全面技术。因为,这些实质性的问题,并非是单纯的技术问题,而是一些与机器计算能力的局限性有关的理论问题。

  首先,由于形似汉字的存在,必然伴随一个不确定性问题的出现,也即如何恢复汉字图像的多义性识别问题。况且,即使不是形似汉字,标准汉字中的各个特征要素,往往都是综合诸多因素的结果,很难从汉字图像中回推出导致各个特征要素的实际因素。而这种难以把握的微小变化却往往导致对图像特征截然不同的确认,从而得出截然不同的识别结果。再者,汉字图像本身往往并不提供足够的所需信息,需要主观参与才能形成最终识别结论;并且即使提供的信息也是离不开拓扑结构和整体局势的,不是靠局部精确计算所能把握。许多因素是深深根置于认字活动过程之中,离开了主客体相互作用抽取出来的信息会变得毫无意义。就连最初始的文本切分,也是和以后的词句确认密不可分。所有这些都是导致手写汉字机器识别困难的一个原因。

  第二个导致手写汉字机器识别困难的原因是,人类认字能力难以为机器识别系统所面面照顾到。我们知道,识别一个汉字,特别是写得不甚规范的汉字,需要许多语境信息的背景知识,而这些背景知识却是人类在一定文化习得和语言环境中长期积累形成的。靠目前的计算手段,那怕只是一个小学生的语文经验和知识,也无法系统地加以描述和组织,更谈不上灵活运用这些知识了。另外,手写汉字识别研究的目的是要代替人类认字能力,起码在某种程度和范围上是如此,这就需要对人类认字的机能有透彻的了解。但要做到这一点,是十分困难的,几乎涉及到神经生物学、认知心理学、语言文字学等等与之相关的所有学科领域。现代神经生物学的研究表明,就人类的视觉机制,就超乎寻常的复杂,单单组成的神经细胞就有十的十一次方之多,更不用说还要考虑这许多神经细胞构造的各个特异化组块及其各种错综复杂的关系了!

  目前尚不知道是因为汉字形体的复杂性引起了我们汉字识别能力的复杂性,还是因为我们有了复杂的认识能力才使得我们能够识别如此复杂的汉字。但有一点是肯定的,那就是要达到,哪怕部分达到人类的认字能力,就需要具有同人类认字机能相当复杂的机器识别系统。对于手写汉字的机器识别而言,以复杂性对付复杂性恐怕是唯一的一条出路。但这在计算观点来看,即使对人类认字机能有了充分了解之后,也还会遇到难以设想的种种困难。因为作为一种计算装置的机器,其所要解决的问题,还必须要考虑到计算复杂性和可计算性问题。

  我的导师马希文教授曾经撰文指出,要机器去解决某个问题,必须满足三个基本前提,就是第一该问题必须是可形式化的,第二形式化的问题还必须是可计算的,第三即使是可计算的问题,也还必须不是难解性的问题,即要有一个合理的复杂度。而一个问题是否可形式化和可计算,是问题本身所固有的性质,不依赖于所采用的计算装置和计算方法。所以想通过新方法、新理论和新机器来绕过前二个基本前提也是徒劳无益的。至于第三个基本前提,是否能通过新方法新技术,来改变问题的相对复杂性,似乎还值得探索。因为确实存在着这样的例证,能相对改变问题的计算复杂性。比如Steimer树问题,对于顺序计算而言是一个难解性的问题,但如果采用一种“肥皂膜”计算装置,就可以通过O(n)级的计算量完成其计算。实际上这种“肥皂膜”装置类似于大脑特异化组块,是通过装置本身的复杂性来提高应付复杂性能力的。从这里我们可以看出,用复杂性对付复杂性无疑为绕过第三个基本前提提供了可能。但对于不可计算的问题,则远非是靠计算的手段所能解决的。目前,对于手写汉字识别问题,我们尚无对其可计算性和计算复杂性问题的系统研究。我们还不能肯定,完全像人类认字水平一样来解决手写汉字机器识别问题是否可行。而这个问题的本身研究,也就构成了手写汉字机器识别研究困难的第三个原因。

  总之,所有上述困难,都是导致手写汉字的机器识别进展迟缓的根本原因。自然我们会问,面对这些困难,手写汉字机器识别研究的出路又在那里?

也许我们一开始对手写汉字的机器识别期望就过高,如果机器计算能力的限度确实不及人类认字能力的限度,那么手写汉字机器识别的研究目标,只能是努力提高计算装置的复杂性、努力发展与人类认字能力相适应的计算思想和方法、尽可能实现机器能实现的部分认字功能 (对书写有一定的限制) ,而不是完全取代人类认字能力 (没有书写限制) 。即便这样,我们也还必须清醒地认识到,要更好地解决手写汉字识别问题,远非只是靠纯技术性的改进所能完成,其中存在的本质上的困难需要对汉字音、形和义三个方面作全面、系统和整体的综合研究,才会有所发展。不但如此,那种可计算性和计算复杂性问题的研究、那种形似汉字区分问题研究、那种依赖于整体局势的信息提取的研究,特别是那种依赖于情境关联的语境信息更充分利用的研究,更需要综合各个相关学科的研究成果,进行全面系统的综合研究。此时与其狭义地把手写汉字机器识别简单地归结为模式识别的一个分支问题,倒不如广义地将其独立出来形成一门新的研究学科,抑或我们应该称其为“计算汉字学”更为贴切,有如“计算语言学”是语言学的计算化拓展一样,“计算汉字学”可以看作是汉字学的计算化拓展。而上述诸方面的研究问题便构成“计算汉字学”重要的研究课题。我们期望着在不远的将来,对这些问题的研究有较大的进展,以能真正推动手写汉字机器识别的实用化进程。

 

                              摘自作者《手写汉字的机器识别》“结语”                          

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有