加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

网友统计出99个宋词高频词汇(附表)

(2012-11-29 10:26:17)
标签:

99个宋词高频词

文化

分类: 观天下

 

统计学研究生挖掘99个高频词汇编号码 武大博导说,这只是一个文字游戏


  一位学习统计学的网友,利用所学将《全宋词》中出现的99个“高频词汇”统计出来,发在博客上。没想到,这篇博文很快就被大量转载,并有网友利用这些高频词汇重新“写词”。圆周率、生日、身份证号码都可以组成一首形式上的“宋词”。


  在江汉大学刚刚举办的“诗词吟诵暨诗歌大赛颁奖会”上,不少学生讨论这个话题。真的存在网友说的“自动写词机”吗?记者展开采访调查。


  《全宋词》中的99个高频词汇


  话题的“始作俑者”是一位学习统计学的研究生,网名“yixuan”,他在博客上发表一篇文章:“突然想看看宋词里面什么样的意象是最常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多时间,于是想出了一个土办法。”


  宋词的句子都很短,最常见的词语一般是两三个字,这样可能的组合就更少了。比如“犹解嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合是“犹解嫁”“解嫁东”“嫁东风”,词的字数越多,可能的组合就越少。


  “yixuan ”统计出99个《全宋词》中的高频词汇。排在前面的依次为“东风(1382次)、何处(1230次)、人间(1202次)、风流(857次) 、归去(812次、)春风(802次)、西风(779次)、归来(771次)、江南(765次)。


  “yixuan ”的这篇博文一发出来,很快就被另外一家网站转载,大量网友被这个有趣的话题吸引,纷纷发帖评论。

 

结果(排在第一的是无效字符,这跟数据源有关):

Word Freq

1 1485  2 东风 1382  3 何处 1230  4 人间 1202

5 风流 857  6 归去 812  7 春风 802  8 西风 779

9 归来 771  10 江南 765  11 相思 753  12 梅花 732

13 千里 676  14 回首 656  15 明月 651  16 多少 648

17 如今 642  18 阑干 630  19 年年 613  20 万里 590

21 一笑 582  22 黄昏 550  23 当年 542  24 天涯 537

25 相逢 528  26 芳草 527  27 尊前 516  28 一枝 512

29 风雨 505  30 流水 472  31 依旧 472  32 风吹 471

33 风月 461  34 多情 457  35 故人 451  36 当时 450

37 无人 445  38 斜阳 438  39 不知 430  40 不见 429

41 深处 422  42 时节 403  43 平生 398  44 凄凉 398

45 春色 394  46 匆匆 383  47 功名 383  48 一点 378

49 无限 377  50 今日 369  51 天上 368  52 杨柳 362

53 西湖 356  54 桃花 354  55 扁舟 353  56 消息 351

57 憔悴 344  58 何事 339  59 芙蓉 338  60 神仙 334

61 一片 334  62 桃李 333  63 人生 332  64 十分 331

65 心事 329  66 黄花 328  67 一声 325  68 佳人 324

69 长安 321  70 东君 319  71 断肠 316  72 而今 315

73 鸳鸯 314  74 为谁 313  75 十年 310  76 去年 309

77 少年 308  78 海棠 307  79 寂寞 306  80 无情 306

81 不是 305  82 时候 304  83 肠断 303  84 富贵 303

85 蓬莱 303  86 昨夜 303  87 行人 302  88 今夜 301

89 谁知 300  90 不似 299  91 江上 298  92 悠悠 296

93 几度 295  94 青山 295  95 何时 294  96 天气 293

97 惟有 293  98 一曲 291  99 月明 291  100 往事 290

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有