问题来自一位参加过2017年南京农业大学语料库与翻译研究暑期班学员。
老师您好,如何统计汉语字的频率,比如《论语》中那些字的频率最高?因为AntConc、wordsmith好像不能统计汉字。
因为提问的学员参加过初级班培训,而对于初级班学员来说说,直接了当解决问题最为重要,至于方面后面的原因或者是不是还有别的窍门就不在初级班宗旨之内,所以本博文和回复提问学员的答案相比要啰嗦得多。
其一,AntConc和Wordsmith
Tools能不能统计汉字频率?答案是肯定的,关键是要首先对相关文本进行处理。以上两款软件处理汉语文本的前提条件有两个,A)文本编码;B)将没有空格的文本切分成带空格的文本。对于AntConc(简称蚂蚁)而言,将中文文本存为utf-8编码,即可与英语等西方文本在同一个平台下运行处理。Wordsmith
Tools(简称WST)则需要使用unicode编码。文本量少就一个一个另存,文本量大可以考虑用批处理软件修改已有文本的编码。这就解决了问题A)。要用蚂蚁和SWT处理中文文本还得西方文本那样在字词之间弄出空格来。有个叫TextPro的免费软件就有“增加空格”这一功能,当然也可以用。这对于仅仅对处理字为单位的用户来说就方便多了。
菜单“转换”下的“增加空格”就可以给文本中每个汉字后面增加一个半角空格。增加空格后的汉语文本如下图。无论是蚂蚁还是WST都可以进行分析处理。不过,这个功能不同于分词。
其二,抛开蚂蚁和WST,使用中文环境下产生的软件。专为处理中文文本的软件自然考虑到了统计字的需求。这一工具应该是比较多的。比如,国家语委汉语语料库就有一个在线的统计工具,在线统计汉字/词,如果文本量多又大,可以下载该网站上的字词频率统计工具。
加载中,请稍候......