加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

汉字编码运动为什么消亡了?

(2016-02-20 21:48:31)
标签:

汉字编码

万马奔腾

学术会议

中文信息

发明家

分类: 科海漫游

           汉字编码运动为什么消亡了?

 

    轰轰烈烈的汉字编码运动终于结束了,它始于上世纪八十年代初,到现在已三十多年,早已偃旗息鼓。

 

汉字编码运动为什么消亡了?
当年汉字编码运动号称“万马(码)奔腾”,上万种编码发明如大潮奔涌!

 

    一、汉字编码发明只是轰动一时的运动
    我所说“汉字编码运动”,不包括之前和之后专业部门做的种种有关汉字编码的技术工作,实际上一直到现在还在做。既称“运动”,我是指大规模、群众性,一窝峰的专家和民间共创发明种种汉字编码方案的壮举,试图解决电脑汉字输入难题。估计当年起码有数千种方案问世,号称“万码奔腾”,一时之盛,蔚为大观。
    而我,做为当年发明者之一,亲自参与了这场运动的全过程,看着它出生,成长,高潮,疯狂,直到落寞。正如俗话说:“眼见他起高楼,眼见他宴宾客,眼见他楼塌了。”
    就连当年最红火的“五笔字型”,到今天也没多少人用了。其它千百种发明更是扔进了历史垃圾堆。现在回想当年的辉煌热烈,多少专利,多少论文,多少学术会议,多少“世界领先”“全国先进”,多少培训班,多少软盘光盘,到现在居然白忙活一场,禁不住心头发酸。

 

    二、当年为什么不用拼音码?还要另外发明编码?
    也许现在的年轻人,或者玩电脑不久的老年人,都不明白当年干嘛非得来那么一场费力不讨好的运动?直接用拼音码输入不就挺好嘛。这就得说道说道了,也算为这场悲壮的运动送终吧。其实简单一句话,就是“被逼无奈”。
    八十年代初,电脑刚刚在中国开始普及,立刻就遇到了最大的难题,汉字没法儿输入。西方没这个问题,直接敲键盘,出来的就是他们的文字。而中国上万汉字,怎样能用通用的英文键盘把汉字敲进去?
    当然,当时现成方法也是有的,那就是随机配置的拼音码。
    当时汉字输入有两种人——专业录入员和非专业一般人。
    专业录入员为了追求速度,当然不能用拼音码,而是像拍电报那样,直接用电报码,或者用电脑里配置的区位码(也是四位数字对应一个汉字)。
    而我们一般人只好用拼音码,我一开始用的就是拼音码。
    但当年的拼音码之落后,不是现在人们能想象的。没有词组功能,没有联想功能,只能一个个单字,硬用拼音码往里敲。
    那时敲拼音码,不像现在敲第一键就出字出,再敲再不断换字,比如想输入huang,当你不断地敲h,hu,hua,huan,huang,屏幕都出字。我们那时候必须把全部音节都敲完,再敲空格键表示“确定”,这时才开始出字,如果拼音不熟,敲错了,就出不来字。
    更重要的是,汉语同音字太多,一个音节,少则对应几个汉字,多则几十个,上百个。一屏就算出10个汉字,动辙就得翻七八页、十几页,来回找,好半天才能输入一个汉字。想输入一篇几百字的小文,恐怕得大半天,比写字不知慢多少倍,令人无法忍受,逼得人们必须想办法解决汉字输入的难题。
    还有个原因,那时除了专业录入员之外,用电脑的人很多不会拼音。因为多半是中年人,甚至老年人,而不像现在以青年为主。为什么呢?那时电脑很少,单位上只有像我这样的科技骨干,甚至科学家才轮得上使用。就连写字最多的作家、记者之类,也都没开始用电脑。他们多是文科生,掌握电脑比我们科技人员要难得多。

 

 汉字编码运动为什么消亡了?
中国最初玩电脑的全是老科学家


    我去北京开汉字编码会议,发明家多半是中老年,我当时四十来岁,算比较年轻的。那些比我老的,多半没学过拼音码,所以他们只好另外发明按字形部件编码的方案。
    另外,当年普通话远不如现在普及,许多南方人不会说普通话,使用拼音码肯定错误百出,找不到要输入的字。
    总之,为什么当年人们不用拼音码?三个原因:一,当年拼音码没有词组,单字输入重码太多,输入太慢;二,老人不懂拼音;三,南方人说不好普通话。所以当年的汉字编码发明主要以形码为主,以字根、部件来拆分汉字。

 

    三,运动的起步和划时代的五笔字型
    当时台湾电脑业比我们先进,他们已经发明了一种“苍颉码”,就是形码,把每个汉字拆分成几个部件,几百部件对应在键盘的不同键位上,组成一个部件键盘图。打字时只要看图练熟,每字固定的三四下敲键,肯定比拼音码快得多。
    但“苍颉码”只适合于繁体字,而且我看过那方案,部件与键盘的对应关系以及输入规则非常繁难。于是大陆人开始行动了,八方诸侯,群雄并起。
    中国第一位编码人开始于1978年,上海电工仪器研究所部工程师支秉彝创造了一种“见字识码”法,以四个字母表示一个汉字,如“路”字,可拆成口、止、文、口四部分,取部首拼音读音的第一个字母,即组成“路”的代码KZWK。看似形码,实际上有音的因素。
    这种方法看起来很简单,实际上像“路”这样好拆分的汉字并不多,很多字不好拆分,汉字部件极为模糊,没有规律,真正学起来是很困难的。
    1983年8月,河南科技人员,电子专家王永民发明五笔字型,这是纯粹的形码,与字音无关。把一百多汉字部件按照每个部件的头两笔有规律地分配在五组共25个字母键盘上。

 

汉字编码运动为什么消亡了?
王永民和五笔字型


    1984年在联合国表演中创造了每分钟输入200多汉字的记录,汉字输入第一次创造了比英文输入还快的奇迹。
    五笔字型的推广极为成功,在大陆全面推开,创造了丰厚的效益,王永民也成为编码人中最成功的发明家,后来的所有汉字编码方案都远没有达到他那样高的成就。

 

    四、高潮兴起
    既然五笔字型已有了那样巧妙的设计,占据了那样的高位,按理说中国人全用这个编码不就完了?比如台湾人就用一个苍颉码,为什么后面又要出来数千种编码方案?原因就是五笔字型仍然难学。它之所以快,是因为里面加了大量词组,而且重码少。
    一开始我用拼音码输入,速度太慢,在报纸上看到五笔字型码,说得天花乱坠,实际拿来一学,记忆量太大,很难学会。光那个键盘图表就不好记。更难的是汉字部件拆分非常模糊,充满歧义,全得靠人长期试错训练,记忆下来。只适合于年轻的专业录入员,一般人学习还是太难了,所以大家仍然不能接受五笔字型,都试图发明更好学的编码。
    跟五笔字型差不多同时问世的还有1985年推出的钱码,是物理学三钱的那个钱伟长教授发明的,当年钱老先生已经73岁。由于他对汉字编码做出的贡献,成为中文信息学会的首任理事长。
    上面所说的支秉彝、王永民,到钱伟长,不是科学家,就是工程师。可知发明汉字编码一开始就是科技人员打头阵。这些发明家有个共同点,文理兼通,对文科也都很有兴趣。
    比如王永民为中国科技大学无线电电子学系毕业。通诗文、书法、篆刻和音乐。
    再比如钱伟长,当年以物理5分,化学和数学一共考了20分,而中文和历史两个100分的成绩进入了清华大学历史系,后来才改学物理。
    就连我这样最没名的发明家也一样,本身学物理,同时爱好美术、文学,最喜欢查字典,在中学被同学戏称为“陈源(中华大字典作者)大弟子”。也就是说,我们都是“通才型”。
    钱码是声形码,打一个字只需3码,首码声母,二三码分取首末字根。我也研究过,实际上键盘不如五笔字型有规律,编码规则复杂,歧义多,比五笔字型还难。
    再往后,著名的方案比比皆是,比如表形码, 大众码、笔形码、五十字元码、前三末一码、自然码、太极码、声数码, 二维三码、火炬码……全是名震一时。

 

汉字编码运动为什么消亡了?

这是一种笔形码方案


    这些方案我全都仔细研究过,分析过,他们多数都是形码,都是因为五笔字型不好学,试图克服它的缺点,取而代之。初看每个方案的设计也都很巧妙,各有长处,但真正一学就知道,各有各的难处和缺点。顾东顾不了西,在总体上仍然无法超过和取代五笔字型。
    究其根本原因,就在于汉字部件、字根本来就规律性极差,极模糊,谁都无法克服这个困难。
    当时也有人另僻蹊径,搞音形结合的码,试图以好学的音码来部分代替难学的形码。
    但没人去钻研纯拼音码,因为那东西是死的,就那些东西,没多少变化空间。
 
    五、我的探索
    我对拆分汉字部件字根的困难深有体会,为了彻底突破这个困难。我突发奇想,把汉字部件不再看成传统的部首、字根,而是看成电路,看成连通图,而连通图是非常有规律的。因为这已经不是文字学,而是数学、物理学了。这在编码学概念上的确是从未有过的独创思维,所以得到了鉴定专家高度的赞扬。就在全国学术会议上也得到了不少发明家的赞许,说所有方案中只有你的最科学,一看就是理科生搞的。
    但后来我在真正的实际编码和输入中,发现仍然有困难,因为汉字到底不是真的连通图,笔画之间到底是连着?通着?还是断开?有时真的不很明确,从而导致了新的模糊性、歧义性。另一方面,中国人普遍不大接受这种纯数学的西方式分类法,仍然习惯于传统部件。
    但我没有放弃,后来又发明五分钟码,以汉字属性中最少歧义,最明确,最易学的声母、韵母和笔顺做为编码材料。键盘安排也和五笔字型一样有规律。最终获得了成功,得到了推广。

 

汉字编码运动为什么消亡了?
我因发明编码而获金奖

 

汉字编码运动为什么消亡了?
我的五分钟码专利发明证书
 
    以我现在的角度看,我这个方案仍然是当年众多方案中最易学,最不模糊的,只要学会几条简单规则,记住有规律的键盘,就可以说基本学会了。而且实际打字速度也不慢。后来被国家科委列为重点推广项目。
    实际上我先后研究出多个方案,起码获得了三个发明专利,多项发明金奖,科技进步奖,光论文就发表了几十篇,全国学术会议就参加过三回。起码在新疆,我算是唯一的真正的“编码人”,虽然还有几位发明人,其实只是纸上谈兵而已,只有我把发明变成了软件,推广了出去。即使在全国也算有影响的“编码人”。
    就连北京的二伯,九十多岁成了痴呆,每见我还笑问:“力德的发明推广得怎么样了?”没想到现在一切都成了过眼烟云,全都跟没发生过一样。
    但我这个五分钟码最终也未能推向全国。原因很多,主要是:一、五笔字型已经占领了制高点,谁也搬不动它;二、我起步太晚,在“万码奔腾”的海洋中,我被淹没了;三、我是个人发明,只靠一己之力,无财力,无后台,力量太小;四、我处在边远的新疆是无法推向全国的,要想推广必须扎根北京才行,但我正上着班,没有辞职创业开公司的魄力和能力。
    总之,我闹腾了好些年,有点动静儿,在全国也有一定影响,很多刊物对我的方案都有介绍和评价,但最终推不下去,只能放弃。

 

    六、学术会议与刊物
    汉字编码运动在中国兴起,自然就出现了全国性的学术组织和会议,即中文信息学会下面的汉字编码专业委员会。我也算中文信息学会的会员。
    中国中文信息学会成立于1981年6月。钱伟长、甄健民、安其春为主要发起人。隶属于中国科协,它研究的范围比较广,除了汉字编码之外,其它许多技术工作,比如建立三级汉字库,字频词频统计,汉字识别,汉字字形压缩存储,少数民族文字计算机处理,机器翻译,信息检索,等等,都由它管。
    而中文信息学会下面的汉字编码专业委员会,顾名思义,是专门搞汉字编码的,如何将汉字按形音义的规律作出编码,将汉字信息输入计算机。
    我共参加了三次学术会议,都在北京。第一次是1990年,在北京西郊的板桥村,那时周围还是农村。参会起码上百人,来自全国各省,南腔北调,好不热闹。全是一色老爷们儿,没一个女发明家。这些发明家似乎各行各业、三教九流都有,除了科技人员,还有许多其它行业的。总之,多是一些思维古怪,不修边幅的编码迷。
    后来又参加了两次会,兄弟重逢,格外亲切,成了朋友。
    所谓会议无非大家交流论文,发言讲解自己的方案。许多发明家我以往只在资料上研究分析过,这次见到了真人。有一位山西发明家,其方案《飞天码》全靠背功,就跟背珠算口诀一样,我见了他面,立刻背出他的几句口诀“丝印纸里黑白日,耳刀鱼边框贝舟……”,他大喜过望。
    不过给我们印象深刻的是人大的陶沙教授,他是专业委员会的委员,代表“组织上”给我们做学术报告,口若悬河,语含机锋,幽默生动,大家非常喜欢听。
    陶沙在报告中曾说:“汉字部件究竟应该怎样分类和拆分,新疆的王老师的方法是一条可行的路。”
    会场喜气洋洋,生机勃勃,大家都对中国的汉字编码运动充满期待和信心,为生逢盛世感到自豪。现在回忆起那些火热的日子仍然激动不己。
    我们的会议在央视也实时播出,我晚上到北京大哥家里看电视,恰好正在播这段报道,我和大哥居然在电视上看到了中午正在参加会议的我自己,虽然只有几秒钟,但这是我此生唯一出现在央视中的镜头,弥足珍贵。
    这三次学术会议的三本论文集都有我的文章,分别是:《对汉字字形规律的再认识(1991.6.)》《以数学方法重新认识汉字(1991.10.)》《汉字编码的普及目标体系和编码实例(1994.11.》。
    我们也有专业刊物,最主要的就是《中文信息》,我在上面发表过十四篇论文。因为发表太多,刊物主编已经都认识我了。

 

汉字编码运动为什么消亡了?
我的一少部分论文
 

    另外我在《计算机应用与研究》《电脑》《软件世界》《中国计算机报》等刊物上都发表过与汉字编码有关的论文。
    有些文章在列举国内主要编码方案时,我的方案《五分钟码》往往也在其中。
   
    七、万码奔腾终于回归拼音码
    高潮时几乎天天都有新方案问世,尽管八仙过海,各显神通,但始终没有一家方案独霸天下,为全国普遍接受。因为无论哪家方案都有各自的短处,没一个十全十美的。
    而一家独大的五笔字型并不参加我们的会议,根本没把我们放在眼里,只顾向全国推他的王码电脑。但他也同样无法独霸全国市场。
    就这样百花齐放,一花独秀的热闹了好些年,终于寂寞下去了。新方案越来越少,报刊报道越来越稀,人们的兴趣热情也日渐淡漠。

 

汉字编码运动为什么消亡了?
“万码奔腾“最后就剩了王永民这一匹还在跑,而且还是缺胳臂少腿的。

    最终不是五笔字型,而是最早的,我们全都看不上的拼音码把大家挤出了市场。
    为什么?我分析有以下几个原因:
    一、因为这时电脑已全面普及到所有单位,甚至所有家庭。这时用电脑的主体不再是我们这些中老年科技骨干,而是年轻人。
    起初那些年是我们这些得风气之先的中老年专家给年轻人教电脑,后来电脑普及,反过来了,是年轻人给他们父母或爷爷教电脑。
    这些年轻人从小就会拼音,会普通话。一接触电脑立刻就能掌握里面的拼音码。他们手快,反应快,记忆力强,学习能力强,所以他们用起来并不感到慢。
    二、经过一二十年的技术革新,拼音码已面目全非,功能比我们那时强得太多了。带有海量词组(我们那时一般都用标准的5000词库,太小了),而且有联想功能,高频先见功能,动态记忆功能。词组既能每字打全拼,也能这个字全拼,那个字只打声母,甚至几个字全打声母,任意组合,随便拼凑。
    最厉害的是即时造词功能,不管词库里有没有这个词,你只管打,甚至你自己的姓名,如果没有,就继续选字,把这个词凑全,到下一次它就有了。这样的词库少说也得有上百万个词,越用越多,最后恐怕上千万词也打不住,连根本不是词或词组的组合串都能自由创造进去,比如“喜大普奔”之类。
    这些功能是我们那个时代想都无法想的,有了这么强大的功能,又遇上那么机灵的年轻人,一学就会,一会就熟,最后用拼音码打字并不比我们发明的那些极巧妙的编码慢。
    三、拼音码实际上是我们当年最理想的“不学就会”的编码,就跟外国人直接敲他们的文字一样。而我们发明的所有方案全都需要一个学习的过程,不管多么简单也得学。
    五笔字型是个典型,它在当年众多形码(部件码、字根码)当中算比较全面,有规律好学的,但如果现在给年轻人教,恐怕他们会大吃一惊,怎么这么难?这么复杂?这么麻烦?这么模糊没规律?
    我的五分钟码是另一个典型,在当年众多方案中,确实是最简单最好学的,只记一个有规律的键盘,和几条简单的规则,五分钟内真能掌握,而且没有什么模糊性、歧义性。但即使这样的方案,要想完全掌握,也有一个学习的过程,起码得十天半个月吧。
    比如我的老网友,因为已经掌握了拼音码,看到我的方案,觉得很奇怪,还要记那么多东西?这也太难了。因为他们在那个时代还没开始玩电脑,无法体会到我们当年输入汉字的苦恼和困难。就连我这个最简单的方案,他们都已经觉得难得不可思议。
    现在的年轻人已经先入为主地会用拼音码,已经能打得那么快,谁还有耐心去另外学一个完全陌生的而且难得多的方案?
    所以,现在拼音码取代“万码奔腾”是大势所趋,任谁都无法阻挡。
    拼音码在汉字输入中起了这么大的决定性作用,我们必须要感谢汉语拼音方案的创始者们,其代表就是现在还活着的百岁学者周有光。
 
    八、“过时”的编码仍然有人使用
    虽然汉字编码运动已经结束,但并非一点痕迹没有留下。
    虽然99.9的中国人都用拼音码,但仍有极少数人坚持在用以前发明的方案。这些人包括:
    第一类,以前的专业打字员,他们从一开始就已经用熟了五笔字型之类编码,速度快得不得了,即使现在拼音码玩得最熟的年轻人也还是赶不上他们。包括现在的专业打字员,恐怕也得使用五笔字型,才能达到理想的速度。
    第二类,我们这些发明家,以及我们的铁杆粉丝。我们对自己的方案自然都很熟,从八九十年代到现在一直在用,也很熟,速度并不比年轻人用拼音码慢。如果让我们改学拼音码,仍然不习惯。虽然它功能很强大,但要想达到我们现在的速度,仍然需要很长一段努力,所以我们也懒得改用拼音码。
    第三类,那些经常需要输入古籍古文古诗词的人。那里面的生僻字、繁难字很多,就算你拼音码再熟,遇到这类文章还是不好办,很多字不认识,读不出音来,就算能读出音,但这类生僻字往往组不成词,而且排在拼音码重码字的靠后位置,要翻很多页来回找才行。打这类文章,还不如彻底掌握一种成熟的形码,比如五笔字型。不管汉字读什么音,不管多复杂,四键下去,这个字必定出来,基本没有重码,不用选择,那速度肯定快得多。
    现在电脑里装的基本都是各类拼音码,比如百度、微软、智能等等,也有少数几种以前推广得比较好的形码、音形码,起码五笔字型肯定能找到。
 
    九、是否白忙活一场?
    虽然现在汉字编码技术工作并未停止,但做为一个轰轰烈烈的发明运动,确实已经结束了。
    从整个运动我们可以看出是这样一个过程:拼音码——各种编码——拼音码,这是一个否定之否定的过程,也是一个螺旋式上升的过程,后来的拼音码跟之前的拼音码不可同日而语。
    从表面看,好像我们那些年的发明运动基本等于白忙活,但实际上并非一点儿用都没有。
    首先,它解决了过渡阶段的困难。即从电脑开始进入中国,到全面普及,从少数中老年科技人员用电脑,到全国普遍用电脑,在这样一个过渡阶段中,我们解决了输入汉字的困难。如果我们不发明这许多编码方案,汉字输入的困难当时几乎无法解决,也就无法跨入到现在。
    其次,它通过竞争筛选,留下了一些优秀成熟的方案,在少数人中继续使用,尤其对专业打字员,还是那些方案比拼音码更快。所以没有这些方案也是不行的。
    再次,它通过这个运动,充分调动了全国的专业和业余的编码发明家的聪明才智,参与到中文信息处理中来,对电脑知识普及起到了不可小视的作用。
    再次,拼音码技术之所以能达到今天这样强大的功能,实际上也得益于这场汉字编码运动,在这场运动中发明家们钻研出数不清的技巧,光是我自己就发明出许多很实用的技巧,比如“汉字输入系统的开放式码表”“在编辑位直接输出汉字”“不兼容型简码对重码的制约”等等。这些技巧都发表在相关论文上,对整个技术的提高都会产生影响。
    最后,培养锻炼出一批电脑专家。在我们开始搞发明时,中国的大学里还没有计算机系,也没有专业的电脑工作者和毕业生。大家都是由别的行业(主要是理工科)转向电脑行业的。比如我自己在单位原先是科技期刊编辑,通过发明电脑输入法,逐渐学会了电脑软件编程,最终成为一名电脑工作者,专业从事数据库软件的开发工作。同时也向青年人讲授电脑编程。

 

汉字编码运动为什么消亡了?

计算机系学生还得由老专家培训出来
 
    后来一批批计算机系毕业的大学生被培养出来,参加工作,他们逐步成为更专业的电脑人员,最终取代了我们。
    总之,这场汉字编码发明的运动,在中国科技史上留下了浓墨重彩的一笔,做出了它应有的贡献,最后退出了历史舞台。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有