基于计算机的词频统计研究 ———考证《红楼梦》作者是否唯一
(2017-12-23 12:53:37)
标签:
《红楼梦》数理研究 |
分类: 红楼梦研究转载 |
基于计算机的词频统计研究
———考证《红楼梦》作者是否唯一
李国强, 李瑞芳
(沈阳化工学院, 辽宁沈阳110142)
摘 要: 从阅读、学习、研究的角度出发, 《红楼梦》这部小说是否是一个人所写的问题, 要比研究是谁写的问题, 更重要一些. 将自然科学与社会科学相结合, 采用客观、准确的统计分析法, 运用计算语言学技术分析文学作品的作者身份问题. 统计分析结果表明:整部《红楼梦》是同一作者所写. 关键词: 统计; 数学模型; 相关系数; 词频中图分类号: TP3205 文献标识码: A
收稿日期: 2005-12-20
作者简介: 李国强(1977-) , 男, 辽宁铁岭人, 讲师, 硕士研究生在读, 主要从事计算机应用技术的研究.
自清朝传世二百多年以来, 的读者. ──红学. , 如何运用计, 已经引起了社会科学和计算机科学界的普遍关注. 在这种形势下, 综论计算机与红学研究的历史和现状, 介绍其研究内容和存在的问题, 不仅可以加深人们对《红楼梦》这部辉煌巨著的认识和理解, 而且对于古典文学研究的现代化探索也是有借鉴意义的.
文学作品作者的语言特征是永恒的, 如果作者想控制和形成自己的写作, 他可以有意地改变某个词汇. 因此, 从某种意义来说, 其可以凌驾于语言之上. 但是, 同样存在这样的可能, 他无法选择不是他自己风格的词汇或语法[1]. 即作者不能超越他所拥有的词汇界限, 以及他所熟悉的语法范式. 例如:名词可选形式的调整、副词的替换、动词组的组成、机能单词的应用, 都是写作风格的参数. 这些非环境元素的选取是有一定规则的, 在语法和上下文中是有独立性、自由的, 不受任何语境限制
[2]
. 句子中副词的使用基本是属
于作者的写作风格[3]. 字、词在作品中出现的频率也是个人风格的体现. 利用计算机对作品或作
词、句的频率进行统计研究, 从而了
, 这被称之为计算风格学[4]. 如果近乎相同长度的同一种课题是同一个作者, 在这类研究中这种副词的相对频率分布可能是彼此相似的. 然而, 相对频率分布存在区别时, 并不能决定某因素的不同. 这是因为由于语法、上下文的应用自由, 这些副词已经形成叙述者或者是讲话人的表达方式、习惯, 尤其是在小说作品中体现得更明显, 也就是写作风格的不同. 这些参数是由写作习惯决定的风格元素的一部分, 这个模式也是作者写作风格的一个特征. 本文依此对《红楼梦》中的副词进行统计分析工作.
1 基于统计的数学模型建立
计算机从《红楼梦》的三部分提取词汇, 然后
, 分别为每个部分样本制词汇列表. 更多的数据处理由计算机完成. 这些计算机程序由不同的功能模块组成, 创建词汇的相对频率表、创建词汇分布表.
基于统计分析的词频统计能够客观地推断频率分布状态的相似或区别, 可以指出分布状态之所以相似是因为:它们只有变化的可能性和相同的基础分布; 或者是因为它们大致相同. 采取
第20卷 第4期沈 阳 化 工 学 院 学 报
Vol. 20 No. 4
2006. 12
JOURNAL OF SHEN YAN G INSTITU TE OF CHEMICAL TECHNOLO GY
Dec. 2006
© 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net相关性的测试可揭密两个分布之间是否有一定的相关性, 或者解开变化的数量. 因为词频统计的变化性不可能是正常的分布, 建立在这个常规分布的统计测试是不确切的. 而相关性统计测试比较恰当. 在此采用随机分布技术作为作者之间比较的测试方法. 推荐的随机分布测试法是the Pearson Product Moment Correlation. 它提供了
一种相关性测试的好方法. 1. 1 基本概念
(1) 离散随机变量X 的一切可能值x i 与对
应的概率p (x i ) 的乘积的和叫做随机变量X 的数学期望
[5]
, 记作
E (X ) =x 1p (x 1) +x 2p (x 2) +…+
x n p (x n ) =∑n
i =1
x i p (x i )
(1)
而且, 当实验次数n 很大时, 随机变量X 样本平均值将在随机变量X E (的附近摆动, 即随机变量E (全类似.
(2) X 、Y 之间的相关性
的数字特征———相关系数r xy .
r xy =
∑n
x i y i -N X Y
N σx σy
(2)
其中X 、Y 是根据样本计算出来的变量X 、Y 的
平均值; N 是相关的X 、Y 的个数; σx 、σy 是根据样本计算出来的标准差.
σx =n
=1(x i -X ) 2P (x i )
(3) σy =
n
=1
(y i -Y ) 2P (y i )
(4)
将(2) 、
(3) 式代入(1) 式中, 可得公式(5) r xy =
Σn
x i y i -N X Y
N
n
i =1
(x i -X ) 2
P (x i )
n
i =1
(y i -Y ) 2
P (y i )
(5)
1. 2 数学模型
首先, 将《红楼梦》全书120回以每40回为一单元进行划分:其中1~40回称作A 部分; 41~80回称作B 部分; 81~120回称作C 部分. 在
A 、B 、C 各部分内根据具体规则对副词进行统
计、计算、分析.
2 基于计算机的统计分析实现
运用检索程序对各部分进行检索统计, 统计数据见表1. 在A 、B 、C 三部分涵盖的不同的副词(节选) 有980个.
表1 副词出现次数表
副词出现次数
/次
原文词汇数/个
A B C
126518819826256773354741
453936单词总数528432481单词出现次数6763
6888
5763
平均比值13. 80414. 14413. 902标准方差
48. 951
50. 132
49. 658
推荐的随机分布测试法是the Pearson Prod 2
uct Moment Correlation . 它被作为一种比较索引, 提供了一种相关性测试的好方法. 它也被用来做应用率间相似度的一种显示, 作为相似或不相似的索引, 而不是差异重要性的测试方法.
在Herdan 规则的指导下, 3部分原文间的单词应用频率相关性由下面的公式计算:
r xy =
Σn
x i y i -N X Y
N σx σy
(6)
表2 副词相关系数
文本
(部分)
E (X ) σ(X )
∑X Y
r
A 13. 80948. 951AB =1443011ab =0. 5204B 14. 14450. 132BC =1464271bc =0. 5212C
13. 902
49. 658
AC =1428373
ac =0. 520
6
N =980
上面的结果是应用公式计算得出两部分间
的相关系数. 例如:相关性的测试可揭密两个分布之间是否有一定的相关性, 或者解开变化的数量. 因为词频统计的变化性不可能是正常的分布, 建立在这个常规分布的统计测试是不确切的. 而相关性统计测试比较恰当. 在此采用随机分布技术作为作者之间比较的测试方法. 推荐的随机分布测试法是the Pearson Product Moment Correlation. 它提供了
一种相关性测试的好方法. 1. 1 基本概念
(1) 离散随机变量X 的一切可能值x i 与对
应的概率p (x i ) 的乘积的和叫做随机变量X 的数学期望
[5]
, 记作
E (X ) =x 1p (x 1) +x 2p (x 2) +…+
x n p (x n ) =∑n
i =1
x i p (x i )
(1)
而且, 当实验次数n 很大时, 随机变量X 样本平均值将在随机变量X E (的附近摆动, 即随机变量E (全类似.
(2) X 、Y 之间的相关性
的数字特征———相关系数r xy .
r xy =
∑n
x i y i -N X Y
N σx σy
(2)
其中X 、Y 是根据样本计算出来的变量X 、Y 的
平均值; N 是相关的X 、Y 的个数; σx 、σy 是根据样本计算出来的标准差.
σx =n
=1(x i -X ) 2P (x i )
(3) σy =
n
=1
(y i -Y ) 2P (y i )
(4)
将(2) 、
(3) 式代入(1) 式中, 可得公式(5) r xy =
Σn
x i y i -N X Y
N
n
i =1
(x i -X ) 2
P (x i )
n
i =1
(y i -Y ) 2
P (y i )
(5)
1. 2 数学模型
首先, 将《红楼梦》全书120回以每40回为一单元进行划分:其中1~40回称作A 部分; 41~80回称作B 部分; 81~120回称作C 部分. 在
A 、B 、C 各部分内根据具体规则对副词进行统
计、计算、分析.
2 基于计算机的统计分析实现
运用检索程序对各部分进行检索统计, 统计数据见表1. 在A 、B 、C 三部分涵盖的不同的副词(节选) 有980个.
表1 副词出现次数表
副词出现次数
/次
原文词汇数/个
A B C
126518819826256773354741
453936单词总数528432481单词出现次数6763
6888
5763
平均比值13. 80414. 14413. 902标准方差
48. 951
50. 132
49. 658
推荐的随机分布测试法是the Pearson Prod 2
uct Moment Correlation . 它被作为一种比较索引, 提供了一种相关性测试的好方法. 它也被用来做应用率间相似度的一种显示, 作为相似或不相似的索引, 而不是差异重要性的测试方法.
在Herdan 规则的指导下, 3部分原文间的单词应用频率相关性由下面的公式计算:
r xy =
Σn
x i y i -N X Y
N σx σy
(6)
表2 副词相关系数
文本
(部分)
E (X ) σ(X )
∑X Y
r
A 13. 80948. 951AB =1443011ab =0. 5204B 14. 14450. 132BC =1464271bc =0. 5212C
13. 902
49. 658
AC =1428373
ac =0. 520
6
N =980
上面的结果是应用公式计算得出两部分间
的相关系数. 例如:相关性的测试可揭密两个分布之间是否有一定的相关性, 或者解开变化的数量. 因为词频统计的变化性不可能是正常的分布, 建立在这个常规分布的统计测试是不确切的. 而相关性统计测试比较恰当. 在此采用随机分布技术作为作者之间比较的测试方法. 推荐的随机分布测试法是the Pearson Product Moment Correlation. 它提供了
一种相关性测试的好方法. 1. 1 基本概念
(1) 离散随机变量X 的一切可能值x i 与对
应的概率p (x i ) 的乘积的和叫做随机变量X 的数学期望
[5]
, 记作
E (X ) =x 1p (x 1) +x 2p (x 2) +…+
x n p (x n ) =∑n
i =1
x i p (x i )
(1)
而且, 当实验次数n 很大时, 随机变量X 样本平均值将在随机变量X E (的附近摆动, 即随机变量E (全类似.
(2) X 、Y 之间的相关性
的数字特征———相关系数r xy .
r xy =
∑n
x i y i -N X Y
N σx σy
(2)
其中X 、Y 是根据样本计算出来的变量X 、Y 的
平均值; N 是相关的X 、Y 的个数; σx 、σy 是根据样本计算出来的标准差.
σx =n
=1(x i -X ) 2P (x i )
(3) σy =
n
=1
(y i -Y ) 2P (y i )
(4)
将(2) 、
(3) 式代入(1) 式中, 可得公式(5) r xy =
Σn
x i y i -N X Y
N
n
i =1
(x i -X ) 2
P (x i )
n
i =1
(y i -Y ) 2
P (y i )
(5)
1. 2 数学模型
首先, 将《红楼梦》全书120回以每40回为一单元进行划分:其中1~40回称作A 部分; 41~80回称作B 部分; 81~120回称作C 部分. 在
A 、B 、C 各部分内根据具体规则对副词进行统
计、计算、分析.
2 基于计算机的统计分析实现
运用检索程序对各部分进行检索统计, 统计数据见表1. 在A 、B 、C 三部分涵盖的不同的副词(节选) 有980个.
表1 副词出现次数表
副词出现次数
/次
原文词汇数/个
A B C
126518819826256773354741
453936单词总数528432481单词出现次数6763
6888
5763
平均比值13. 80414. 14413. 902标准方差
48. 951
50. 132
49. 658
推荐的随机分布测试法是the Pearson Prod 2
uct Moment Correlation . 它被作为一种比较索引, 提供了一种相关性测试的好方法. 它也被用来做应用率间相似度的一种显示, 作为相似或不相似的索引, 而不是差异重要性的测试方法.
在Herdan 规则的指导下, 3部分原文间的单词应用频率相关性由下面的公式计算:
r xy =
Σn
x i y i -N X Y
N σx σy
(6)
表2 副词相关系数
文本
(部分)
E (X ) σ(X )
∑X Y
r
A 13. 80948. 951AB =1443011ab =0. 5204B 14. 14450. 132BC =1464271bc =0. 5212C
13. 902
49. 658
AC =1428373
ac =0. 520
6
N =980
上面的结果是应用公式计算得出两部分间
的相关系数. 例如:r ab =
980×48. 951×50. 132=
0. 5204
因为每部分的相关系数的计算程序是相同
的, 那么只需解释一个例子即可. 记录的测试结果在图表中显示:AC 、AB 、BC 的相关系数相差甚微, A 、B 、C 三部分相关度相当高.
3 结 论
作为解决《红楼梦》作者身份争议问题的一种方法, 在这项研究中所用的数据电算化和统计分析提供了详尽的词汇. 这项研究的主要目的达到了, 即采取了科学的、客观的、定量的统计分析方法断定《红楼梦》是一个作者所作.
参考文献:
[1] 张国印, 陈先, 皮鹏. 基于词频统计的个性化信息
过滤技术[J].哈尔滨工程大学学报,2003,24(1) :
63-67.
[2] 周明, 黄昌宁, 张敏, 等. 统计与规则并举的汉语句
法分析模型[J].计算机研究与发展,1994,31(2) :
40-49.
[3] 张鹏飞, 李斌贝, 刘建毅, 等. 基于相对词频的文本特
征抽取方法[J].计算机应用研究,2005(4) :23-26.
[4] 杜鹏东, 孙涛. 计算语言学概论[J].内蒙古科技与
经济,2004,31(3) :31-32.
[5] 沈恒范. 概率论与数理统计教程[M ].北京:高等教
育出版社,2003:80-100.
Study Based on ———Re search on Only of the Red Chamber ”
L I Guo 2qiang , L I Rui 2fang
Institute of Chemical Technology , Shenyang 110142, China )
Abstract : From the angles of reading , learning and studying , whether or no one wrote “Dream of the Red Chamber ”is more important than who wrote it. This paper combines natural science and social sci 2ence , adopts the objective , accurate statistics analytic approach , uses computer author identity issue to analyse literary works. The analysis results indicates :the whole “Dream of the Red Chamber ”is written by the same author.
Key words : statistics ; mathematical model ; correlation coefficient ; frequency of word
声 明
为适应我国信息化建设的需要, 实现科技期刊编辑、出版发行工作的电子化, 推进科技信息交流的网络化进程, 我刊现已入编“万方数据———数字化期刊群”, 《中国学术期刊(光盘版) 》、《中国期刊网》、《中文科技期刊数据库》. 其作者著作权使用费与本刊稿酬一次性给付. 如作者不同意将文章编入上述数据库, 请在来稿时声明, 本刊将作适当处理.
《沈阳化工学院学报》编辑部
第4期 李国强, 等:基于计算机的词频统计研究———考证《红楼梦》作者是否唯一307
© 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net