加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

建议研制生产统计词汇量的软件

(2008-02-26 12:59:34)
标签:

社科量化

it业

研制软件

杂谈

分类: 出版信息

房子是靠一块砖一块砖砌成的,文章(作品)是靠一个词一个词组成的。

词汇量的多少,辞藻的丰富程度,是衡量一个作家的才华、写作水平的重要因素。更准确地说,就是在同样多文字(或者叫同样篇幅)的两篇文章(作品)中,看哪篇文章(作品)用的词汇更多(当然,这只是相对的,不是绝对的)。据近些年科学家们统计,西方是莎士比亚的词汇量最大;中国古代则是曹雪芹,近现代则是鲁迅——那么,他们当然也是文学方面才学最高的大文豪了。(于是,我再进一步猜测,先秦(两汉)的文学家里,论才华没有谁超过庄子(司马迁),虽然他主要是以哲学家(历史学家)而不是文学家的形象、身份出现在历史教科书里;在唐朝,李白(韩愈)的辞藻一定多过杜甫(柳宗元),所以他也应该比杜甫(柳宗元)更有才华;苏轼肯定也要超过欧阳修、王安石等任何两宋其他文学家;明清四大名著中,除了《红楼梦》,其次是《三国演义》,再次是《水浒传》,而《西游记》排在最后;二十世纪的中国文坛,能与鲁迅媲美的,有且只有一个郭沫若;在西方,莎士比亚以下,我所崇拜的雨果的才学是罕见的,老托尔斯泰、歌德、拜伦、泰戈尔等人可能还在他以下,而巴尔扎克、狄更斯、马克吐温、杰克伦敦、契柯夫就要差得远了,更不用说高尔基了;在东方的日本,就像《红楼梦》在中国一样,《源氏物语》也是该国文学史上从古至今无与伦比的。但是,当然我们也知道,作家的词汇量、才华,只是衡量这个作家及其作品伟大与否、高低优劣的一个重要方面,但还不是全部;还有作家的品质因素、写作态度因素、时代因素、机会因素等,作品的总体思想性、艺术技巧等许多方面。)

同时,词汇量的多少,辞藻的运用,也是区别和鉴别作家与作家之间不同性情、不同风格、不同手法的重要因素。有些作家喜欢华丽,有些喜欢朴素;有些作家喜欢铺排,有些喜欢简洁。曾经有人怀疑前苏联作家萧洛霍夫的《静静的顿河》是抄袭别人的(或者不是他写的),但有科学家根据他写的所有文字(包括几部小说、文章、日记、信件等)的用词习惯,写作风格,进行研究后发现,这种说法并不正确,《静静的顿河》确实是萧本人写的,澄清了一项事实,还了萧一个清白。在中国,多少年来,许多学者和读者认为,《红楼梦》是先后由两个人完成的,前80回是曹雪芹写的,后40回是高鄂写的,这几乎成了颠扑不破的定论。但是,最近有科学家也采用了类似的研究方法(我能不能称之为“词汇分析法”?),发现前80回与后40回的词汇运用、语言表达基本上没有很大的不同。其实,这也是我最近看第N次《红楼梦》后的看法。只不过,中国人比较顽固(或者说很忠诚),让他们接受这个事实(至少是观点,再至少是分析结果),似乎非常困难,或者说若干年(甚至可能很多年)都难以改变。

既然词汇、词汇量、词汇量的统计与分析这么重要,那么,我们的电脑Word文档中,为什么不添加这么一项功能——统计词汇量——呢?据我所知,目前好像还没有。在Word文档的“工具”一栏里,只有页数、字数、字符数(含空格、不含空格)、段落数、行数等的统计。那么,既然这些数据都可以统计,为什么词汇量不能统计呢?Word文档是美国微软制造的,我不知道人家美国的Word文档是否有了,反正中国还没有。

又据我所知,也许词汇量的统计与分析是一项非常复杂、艰难的计算机工作及程序。前文提到的,这些年来,科学家在统计西方作家莎士比亚、中国作家曹雪芹、鲁迅等人的词汇量上,在分析《静静的顿河》是否系萧洛霍夫所写、《红楼梦》是否系前后两人完成等工作上,不但借用了最先进、最精密、最繁复的计算机,而且还找了许多人,花了很长的时间,可见是多么的困难!那么,要制造这么一个软件,自然是会很难,需要很久了。

不过,我前面说了,既然这么重要,为什么不制造呢?制造出来以后,不管是添加进Word文档,还是单独使用该软件,都好。我保证,只要这个软件生产出来了,我第一个购买,哪怕价钱不菲。我想,人类的科学越来越发达,技术越来越先进,IT和电子行业越来越升级换代,这个软件迟早会研制成功的。

试想,当这个词汇量统计分析的软件研制出来后,那该是多好的一件事啊!

一,两个人比才华高低,以前都是“公说公有理,婆说婆有理”,“仁者见仁,智者见智”,莫衷一是,似乎没有标准和尺度。现在拿这个软件一统计,各自在差不多篇幅(这个篇幅最好大一点,应该至少文章在5万字以上,诗歌在2千行以上)的作品(而且应该拿这两个人成熟时期的,最有代表性的,写得最用心的,写得最好的,自己最看好的作品)里,看看谁的辞藻更丰富,很快就清楚了。

二,这对知识产权、版权领域的官司纠纷也很有用。即一个人是否抄袭了另一个人的东西,以前也是很难鉴别和判断;现在将这两个人的作品放在一起一对比,用该软件将其词汇的运用、词汇量的多少一分析,马上就真相大白了,那诸位衮衮“文抄公”王铭铭、谢华安、郭敬明、安意如、郭妮、叶辛、哈金、余杰、金元浦、雒启坤、程宗璋、李弼商、王力宏、蔡明、花儿……看尔等还往哪里逃?(老实交代一下,严格来说,俺也曾抄袭过,但是现在俺已经改了,以后绝不干这种缺德事了——只可惜,如今一点也不抄袭的人,地球上可能已经绝迹了。)

三,在目前中国乃至全球科学界,有一个非常重要的科研课题,那就是社会科学的量化问题。如果词汇量统计分析软件研制出来了,将对该项课题是一个大大的推进,也大大有助于该课题的进一步发展及至最终解决。

2.jpg2.jpg 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有