汉语拼音音节的歧义指数

标签:
汉语拼音音节歧义指数方志伟 |
汉语拼音音节的歧义指数
如果不计声调,基本的汉语音节只有405个,这405个汉语音节可以表示全部汉字的读音。而《通用规范汉字表》包含了8105个通用汉字,在这种情况下,在一般使用中,一个汉语音节平均要表示20个以上的汉字(8,105/405
例1
北 杯 卑 背 椑 悲 碑 鹎 贝 孛 邶 狈 备 钡 倍 悖 被 棓
例2
京 茎 泾 经 猄 荆 菁 旌 惊 晶 腈 䴖 睛 粳 兢 精 鲸 麖 鼱
这意味着,在表示汉字的时候,汉语拼音音节是存在歧义性的。
歧义指数是汉语拼音音节的歧义程度的数学描述。
一个汉语拼音音节的歧义指数
计算公式如下:
这个公式说明,如果一个拼音音节可以表示
如果一个拼音音节可以表示一个汉字,那么它的歧义指数为零。如果一个拼音音节可以表示两个汉字,那么,它的歧义指数为
在上述例1中,拼音音节/bei/可以表示31个汉字,它的歧义指数为
但是,如果把单音节
例3
其歧义指数减少为
如果把
例4
因此,如果把不同的单音节的拼音音节连接成多音节的汉语单词,那么,拼音音节的歧义指数将明显地减少。这是把不同的单音节连接成为多音节的汉语单词的优越之处。
正因为汉语拼音音节存在很高的歧义指数,使用汉语拼音作为一种正规的文字是不现实的,汉语拼音永远不能取代汉字。中文的全盘拼音化只不过是一种幻想而已。
但是,在使用拼音时按照《汉语拼音正词法》进行音节连写,有助于减少拼音音节的歧义指数,可以使拼音发挥更好的作用。所以,我拥护《汉语拼音正词法》,拥护在文献工作中推广《汉语拼音正词法》。