加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

“韩寒”小说的语言指纹分析

(2012-05-04 17:10:28)
标签:

韩寒

指纹

像少年啦飞驰

苏杰

三重门

杂谈

分类: 时事点击

□倍 魄

  在挺韩和倒韩的对抗中,双方都使用了语言指纹分析。倒韩的石毓智博士的结论是韩寒有代笔,而挺韩的复旦大学孤苏杰博士的结论竟然是“韩寒就是《三重门》的作者”。苏杰博士的逻辑冒进,我已经著文批评过,其他网友也多有批评讨论。但语言指纹技术在汉语中锁定文章作者身份,到底能发挥多大的作用,现在看来基本没有深入的研究。苏杰博士的方法漏洞很大,石博士的研究数据指标又没有披露细节。好在,语言指纹的原理简单易懂,我们缺少的只是经验和方法,所以,我才不惴浅陋,着手汉语语言指纹的初步研究。具体工作非常琐碎,我先说一下我的初步综合结论:
  ⑴ 《三重门》不是一人所写,韩寒参与了改写;
  ⑵ 《像少年啦飞驰》可能是韩寒独立完成的小说,小说由童年和成年拼凑在一起,更符合韩寒成名后的现实和奔波。(PS,小说中间描写了“我和老枪”给出版商代笔的生涯,老枪就是代笔枪手)
  ⑶ 从《长安乱》开始,韩寒的小说语言特征相对一致,但与《三重门》和《像少年啦飞驰》区别明显,所以,韩寒从《长安乱》开始的代笔者可能只有一人。
  ⑷ 路金波(李寻欢)不可能是韩寒的代笔者。韩仁均的文章还没有整理出电子版,尚不知能否排除代笔可能。
  ⑸ 韩寒的代笔者未必是知名作者。枪手是一个行业,有它的规则。韩寒悬赏2000万又食言,因为枪手一辈子也不可能挣到那么多,200万都足以让枪手成为行业的叛徒。

――――――――――――――――――――――――――――

  还是先说说苏杰博士方法的漏洞。
  我们知道,即使是同一作者的两部长篇小说,由于内容不同,叙事角度和方式不同,可能导致对词语的使用选择不同,使用频率也不同。在全知视角的小说中,会更多出现“不幸”“没想到”这样的词汇,因为写作者会随时出来表明对叙述对象的态度。而在“客观写作”中,夸张和评价性的词汇就是大大减少。
  所以,苏杰博士用“没想到”、“谁知”、“光”、“不幸”、“这人”这五个词来证明韩仁均不是《三重门》作者,方法上存在漏洞,并且,选词也太少,不能有力支撑结论。如果我们相信苏杰博士方法的可靠性,那么,不仅可以立即宣布“韩寒”小说不可能是一个人所写(请参看我的图表数据),而且,很多作家都不免被判定代笔。

“韩寒”小说的语言指纹分析

  研究实践表明,证明代笔存在并不那么轻易,锁定代笔者就更加困难。
  澄清三个认识错误:
  ⑴ 否定苏杰的方法,并不表示语言指纹法不可用,更不表示韩寒没有代笔,只是说,证明代笔或者区别两部小说的不同作者,需要更严谨的方法。
  ⑵ 再次强调,即使证明了韩仁均或者路金波不是“韩寒”小说的作者,也并不意味着证明了韩寒就是署名“韩寒”的小说作者。
  ⑶ 语言指纹是研究代笔问题的方法之一,其他研究方法同样重要,同样值得努力。

   
  现在介绍一下我的概念和方法。
  一、“通用指纹”和“个性指纹”的概念:
  汉语有很多同义词、近义词和多义词。有些同义词不仅彼此可以在任何语境下互换使用,而且,本身没有任何歧义和多义,不同的作者究竟使用哪个词较多,完全是出于个人习惯。
  比如,“居然”和“竟然”,在所有找到的李寻欢的小说和文章中,使用“竟然”103次,使用“居然”0次。方方在《风景》和《桃花灿烂》中,使用“居然”11次,使用“竟然”0次。阿来在《尘埃落定》中,使用“居然”9次,使用“竟然”17次。刘震云在《一句顶一万句》中,没有使用这两个词。在对同一作者不同时期的小说的统计发现,一个作者使用“居然”和“竟然”的比例是相对固定的。因此,“居然”和“竟然”作为一对同义词,就有了类似血型的作用,可以区分不同的作者类型。
  因此,我和李寻欢都属于“竟型指纹”;方方属于“居型指纹”;阿来属于“竟居型指纹”;刘震云属于“无竟居指纹”。
  除了居然和竟然,看到和看见,听到和听见,忽然和突然,经常和常常,不仅和不光……等等,都是比较好的用以区别不同作者的特征指纹,它们的好处就是大量使用并且没有歧义,并且容易检索。(但“不光”这个词在检索时,容易把“不光彩”的前两个字,误认作“不光”,需要注意)。
  上述能够区别不同作者的同义词对,我称之为“通用指纹”。具备“完全同义”、“无歧义”“均被大量使用”三个特点的同义词对,就可以成为好的通用指纹指标。通用指纹的优点是使用“词对”的相对比例来区别不同的作者,这个相对比例是通过文本内部的自身比较,题材和写作方法对词对的影是相同的,因而不会改变它们的出现比例。可见,通用指纹方法,比苏杰博士的方法要科学得多。
  因为是从零开始研究,可能有非常好的通用指纹指标没有被我发现,比如,在形容词中,可能也有适合作通用指纹指标的词对。
  单独的通用指纹可以有效区别不同类型的作者,但要锁定同一个作者,就需要尽可能多的不同指纹指标来缩小范围。就像在电视剧《血疑》中,AB型血比较少见,RH阴性AB型血就非常罕见了。多个不同的通用语言指纹指标相组合,就有可能锁定某一个写作者。
  而“个性指纹”则是通过研究某篇或者多篇同一作者的文本,总结和发现言语使用习惯的个性,通过多个如此的个性特点,来界定写作者的个性语言特征组合。总结个性指纹,首先要确认此作品是一人所写,多个作者合写,或者经过不同人编辑修改的文本,会呈现更多的语言丰度,并使个性特点被掩盖。
  我之所以断定《三重门》有多人参与写作和修改,就是因为在总结它的语言通用指纹时,发现它对同义词几乎没有极端偏好,而很多作者是会在某个指标上显示极端偏好,并且,《像少年啦飞驰》就明显有极端偏好。
  所以,我个人的观点是,如果试图锁定韩寒的个性语言指纹,研究《像少年啦飞驰》应当更靠谱。它的语言偏好明显,比如大量使用“××××的时候”、 “××××的是”这样的句式,喜欢使用“些什么”和诸如“埋掉”“坏掉”“逃掉” “××掉”这样的写法,等等。
  到目前为止,我的研究基本限于通用指纹,个性指纹还没有来得及深入。我只粗略统计了“的时候”在不同“韩寒”小说中的出现次数。请注意,在研究个性指纹时,一定要注意用“万字平均”的概念,也就是说,要用每10000字出现的平均次数来进行定量分析。
  二、研究方法。
  一项研究的科学性,一定是建立在可重复可检验的基础上。所以,在进行研究论证前,一定要先证明工具的有效性。
  我对“通用指纹”的科学性的论证尽管数据完备上还可以改进补充,但它的逻辑思路是清晰的。
  ⑴ 通用指纹多样性存在的证明:
  选择了茅盾文学奖的部分长篇小说和王蒙、方方、叶兆言、王朔和李寻欢的文字作为标本,具体是:
  01《平凡的世界》路遥
  02《白鹿原》陈忠实
  03《尘埃落定》 阿来
  04《长恨歌》 王安忆
  05《秦腔》 贾平凹
  06《一句顶一万句》刘震云
  07王蒙《球星奇遇记》《蝴蝶》
       《组织部来了个年轻人》《郑重的故事》《狂欢的季节》
       《青春万岁》
  08方方《风景》《桃花灿烂》
  09叶兆言《花影》《一九三七年的爱情》《我们的心多么顽固》
  10王朔文集 纯情卷
  11王朔文集 挚情卷
  12李寻欢《边缘游戏》《迷失在网路与现实之间的爱情》《粉墨谢场》
“韩寒”小说的语言指纹分析

  ⑵ 通用指纹稳定性的证明:
  对王蒙、海岩、郭敬明和张悦然的小说,按写作或出版时间顺序进行统计对比,通过数据观察,我们发现,通用指纹有值得信任的稳定性,这种情况下,稳定是常态,并显示单态的偏好。极少的“突变”原因不明,可能是在某些特殊条件或者环境下被“污染”了。值得注意的是,这个突变,一般只发生一次,然后,就回归正常,说明不是风格的改变。另外的情况就是“偏好不明显”,这种情况下,变动是常态。

“韩寒”小说的语言指纹分析

“韩寒”小说的语言指纹分析
“韩寒”小说的语言指纹分析“韩寒”小说的语言指纹分析  
  总之,通过观察对比实验,通用语言指纹具有多态性和稳定的。在此基础上,就可以对“韩寒”小说进行语言指纹分析。

“韩寒”小说的语言指纹分析
  还有很多指标可以统计和分析研究。对我已有的数据,请注意“经常”和“常常”以及“不仅”和“不光”以《长安乱》之处,开始发生的偏好反转。这个反转是同时发生的,并且,反转之后保持了稳定,这是“代笔”的明显特征。如果加强和增加对其他词对的统计和研究,可能会出现更为清晰的图景。
  
  最后,说说研究可以深入的方向。首先是继续发现好的通用指纹指标,其次是重点研究《像少年啦飞驰》和《长安乱》的个性指纹。第三,是研究韩仁均的语言指纹,与“韩寒小说”的指纹进行比照。
  如果韩仁均也不能被锁定为代笔者,那么,代笔者可能是一个不知名的职业枪手,他对“居然”“竟然”这样的比较浅表的特征可以很职业地意识到感觉到,但毕竟,不可能凭直觉就做到面面俱到。再职业的枪手,也一定还是会在文本中留下属于他自己的指纹的。
  
                          2012/5/4

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有