重温《计算机辅助笔迹自动识别构想》
(2018-07-16 07:08:16)随着计算机在办公自动化中的普及应用,利用计算机技术辅助文件检验得到了重视,并有一些单位和公司对其展开研发。目前国内出现部分计算机辅助文件检验的软件,主要分为两类:一类是纯粹辅助鉴定,如制作特征比对表、图形比对重合、生成鉴定书、案件文档管理等,另一类是真正意义上的自动识别,如自动比对印章印文真伪、自动查找样本字、自动比对笔迹是否同一等。对于前者,对规范鉴定程序、提高鉴定质量有很好的辅助作用,但对于后者,则是一个理论和实践都尚待探讨的课题。
对于印章印文的自动比对,现已开发并应用的软件比较多,大量应用在金融系统的印章自动识别系统,已经在实践中使用多年了,但实际反馈效果很不好。该类软件的原理是将检材印文与样本印文进行平面重合比对,重合部分超过一定比率则认为是同一印文,而差异大于一定比率则认为非同一印文。由于照相制版、扫描打印伪造的检材印文,在外形上与真印文几乎完全一致,而真实的检材印文由于盖印条件的差异往往与样本印文有较大差异,所以经常会出现该系统弄假成真、弄真成假的尴尬情况;而在金融系统实际应用上稍有差错便会造成巨大损失,因此该系统从理论上就存在缺陷,其应用前景不明。
对于笔迹鉴定的自动识别软件,开发者都试图达到这样的目标:将检材与样本材料输入到计算机内,由计算机自动找出相同字、相同部首偏旁,进而自动给出检材与样本是否同一的结论,试图达到一种“全自动化”。首先我们必须对此目标的可行性进行理论上的探讨,这样才不至于重蹈印章自动比对系统的覆辙。我们知道,人的书写活动,是从大脑给出的书写信号,经一系列的神经传导系统,再由肌肉控制完成书写,当中由大脑主观的和神经系统、肌肉等客观的在一定范围的随机运动,会形成无数的差异组合,也就是说,人的两次书写不可能象印章盖印一样完全相同。目前,汉字手写体识别技术仍然有待完善,如清华同方的OCR等软件,在书写比较规范时的识别准确率不超过95%,而对于书写速度较快、连笔较多的笔迹识别率甚至小于70%。在当前的技术条件写连准确识别手写字是什么字都成问题,如果再考虑到笔迹的摹仿、伪装和变化因素,对于笔迹的全自动识别从理论上就行不通,再在这条路上研究开发下去,就会象印章印文自动识别系统一样,已没有实际意义。不过最新的研究成果资料表明,有软件开发者已能将某某功的样本字输入到库里,在新发该类案件中将现场检材标语、传单等字迹输入查找,有很高的概率能像指纹比对一样找到库里的样本书写人。尽管有所局限,我理解是靠字的外形相似度来识别,这在该类案件书写人字迹内容重复且每次书写字形高度一致的情况下才能得以实现,但这也是计算机应用到笔迹鉴定的一项有实际意义的重大突破。
那么,怎样将计算机技术应用到笔迹自动识别上呢?对计算机应用到笔迹鉴定系统要有个合理的、可行的目标。不要指望把文件的检材、样本往计算机里一输,计算机就告诉你真伪。本人认为,我们可以借鉴指纹的自动识别系统,来构思计算机自动识别的框架。指纹自动识别技术的原理,是在录入计算机前先由人工对指纹的特征点进行标注,然后再录入计算机中。它不是指纹与指纹的图形比对,而是一种特征点的比对,先期的大量录入工作还是由人工来进行,计算机只是整个识别中的一部分,计算机仅仅发挥其容量大、运算速度快的优势。对于笔迹自动识别,也应该先由人工标注笔迹特征,计算机提供检索数据,最终由鉴定人结合数据进行判断的目标。
具体做法是:首先要进行大量的基础工作,编写数据库。数据库的编写不是计算机公司或一两个鉴定人就能够编写的,这是一个很大的工程,可能要花很多的精力、耗费多年的时间。比如一个竖心旁笔顺,写成点、竖、点的有多少概率,写成竖点点的有多少概率,写成竖点点的有多少概率,两种或三种写法都会写的有多少概率,从右到左写点竖点的有多少概率;上述概率在书写水平高的人群中出现的概率修正,在书写水平低的人群中的修正(还要注意累加修正)。要把中国几万个汉字的若干写法全部纳入数据库,这需要要许多文检工作者花费大量的时间和精力去共同完成。有了数据库后,在实践中当拿到一份检材时,需要人工将检材上的文字特征找出来录入数据库中,这时由计算机对检材的特征生成一个总概率;如果概率足够低,并结合案情,鉴定人便可利用该软件编写者的智能较为轻松和准确地进行鉴定。这种软件达到的最终结果,就是一个只经过简单培训的基层文检人员可以借用最好的专家智慧来进行检案,并达到很高的鉴定准确率。
我们正处于一个计算机开始进入文件检验领域的起始时期,计算机辅助鉴定、自动化识别的趋势不可避免。如何在理论上确立计算机的作用和地位,让研究工作少走弯路、尽快地为文检工作服务,是当前急需解决的问题。这里仅表达本人对计算机辅助笔迹自动识别的一种构想,实践中如何更有效地发挥计算机的作用,尚待广大文检工作者和开发人员共同努力。

加载中…