汉字组词的数量优势

汉字组词的数量优势
(发表在《科学大众》2019年第7期)
摘要:从排列组合的角度,分析比较汉字和英文字母的组词能力,估算出3个常用汉字比7个英文字母可以拼出更多的不同词汇。随用字或字母数的增加,可拼出的汉语词汇和英语单词的数量之比呈几何级数增长。联合国用多种文字印刷同一个文件,装订出来最薄的总是中文版,其原因也可由此窥见。
众所周知,英语有26个字母。那么汉语有多少常用字呢?有说1000字的,也有说3000字或3500字的。为了讨论和计算方便,姑且假定常用汉字为2600个。
学习2600个汉字,当然比学习26个英文字母费劲。从数量上来说,前者是后者的100倍。
但是,辛勤学习付出的代价是可以得到回报的,而且是意想不到的巨大的回报!
辛勤学习付出的代价是可以得到回报的,而且是意想不到的巨大的回报!
辛勤学习付出的代价是可以得到回报的,而且是意想不到的巨大的回报!
重要的事情说三遍都不嫌多!因为这就是本文的主题。
请看下面的计算。
用26个英文字母,组成两个字母的单词,一共可以组成26×26=676个不同的单词(为简化计算,不排除字母重复,不区分元音字母和辅音字母。下同)。
用2600个汉字,组成两个字的词,一共可以组成2600×2600=676×104
用26个英文字母组成三个字母的单词,一共可以组成26×26×26=17576个不同的单词。
国际航空运输协会机场代码,由三个英文(大写)字母组成,不允许有数字。由国际航空运输协会对全世界的机场进行编号。比如北京首都国际机场的代码是PEK,香港国际机场的代码是HKG,芝加哥机场的代码是CHI,等等。均由3个字母组成,是最常用的机场代码,多用于对公众的场合。
如下图:台北桃园机场的代码是TPE,上海浦东机场的代码是PVG。
如下图:曼谷机场的代码是BKK,湛江机场的代码是ZHA。
根据上面的计算,这种由3个英文字母组成的代码最多可以代表17576个不同的机场。一旦世界上的机场数超过17576个,就不得不使用四个英文字母组成的代码(已经有四个字母的机场代码了!)。
但是,如果用汉字来组成代码,则两个汉字足矣,因为用两个汉字可以组成676万个不同的代码,可以代表6百多万个不同的机场!
我们继续计算:
用2600个汉字,组成三个字的词,一共可以组成2600×2600×2600=17576×106
用26个英文字母组成四个字母的单词,一共可以组成26×26×26×26=456976个不同的单词。
用2600个汉字,组成四个字的词,一共可以组成2600×2600×2600×2600=456976×108
上述结论是基于最初的假设:常用汉字的个数是英文字母的100倍,即102倍。
抛开这个假设,可以有更加一般的结论:如果常用汉字的个数是英文字母的a倍(a≥10),即26a个,则用n个常用汉字组成的不同词汇的数量为(26a)n,而用n个英文字母组成的不同单词数量是26n个。前者是后者的(26a)n/26n
对于变量n而言,函数f(n)= an是一个指数函数。对于整数变量n而言,函数f(n)= an是以a为公比的几何级数。
从上面的估算可见,给大千世界各种事物起名字,每个名字不超过三个汉字,可以命名的数量达到百亿级,足以应付千奇百怪光怪陆离的宇宙万物了!而用三个英文字母是绝对不够的。即使使用七个英语字母构成英语单词,数量都达不到百亿级。(267≈80亿)
用四个常用汉字组成的不同词汇可达数十万亿个,而用十个英文字母组成的不同单词数量才可能达到这个数量级。
三个常用汉字的词汇好记,还是七、八个英文字母的单词好记?
四个常用汉字组成的成语好记,还是由十来个英文字母构成的单词好记?
汉字的优点显而易见。
从上面的讨论中也可以理解,为什么四个字的汉语成语层出不穷。
记得有个故事,好像是老一辈国家领导人看到外国小孩很小就能看很厚的书,感慨拼音文字比汉字简单易学,所以要搞文字改革,想搞汉字拼音化。其实小孩看的都是低层次的、扫盲级的。等积累的词汇丰富到一定程度,汉字的优势就显露出来了。比如“正方体”,英语很简单,叫做cube。但“长方体”英语叫做rectangular parallelepiped!据说大多数英国人不知道“长方体”怎么说,更不会拼写。而我们中国人,谁不知道“长方体”?只用三个字,简单易学易记。我们国家搞了几十年的汉语拼音,终究没能取代汉字,而仅仅只能起注音的作用。
联合国用多种文字印刷同一个文件,装订出来最薄的总是中文版,其原因也可由此窥见。。
汉字还有其他优点,例如:
1、每个字都是单音节。
2、词汇音节少。
3、像一幅幅图画,看惯后,目击瞬间就能萌发联想。
4、书写时容易美化。等等。
这些就不在本文赘述了。