加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

【转载-统计之都的神作】十八般武艺,谁主天下?

(2013-02-07 16:33:19)
【@IT 转载一篇来自计之都的神作:

十八般武艺各有神通之处,所谓“一弓、二弩、三枪、四刀、五剑、六矛、七盾、八斧、九钺、十戟、十一鞭、十二锏、十三挝、十四殳、十五叉、十六耙、十七绵绳套索、十八白打”,

@统计之都  的小编中穿越到古代的武侠世界,师傅给了一天时间考虑,让徒弟告知自己想学什么兵器?小编在这个信息时代,试图利用科技力量,准确的说是分析技术帮助自己进行决策。

据统计结果显示学剑最有前途之后,他又开始八卦起金庸武侠人物关系来,谁知分析统计结果最终导致笔者的童年梦想幻灭。。。

据告诉你“赤果果”的真相!

文转载:http://cos.name/2013/02/jinyong-fiction-mining/

【转载】十八般武艺,谁主天下?

http://cos.name/2013/02/jinyong-fiction-mining/ 
Posted on 2013/02/05 by Liyun
微博@统计之都

十八般武艺各有神通之处,所谓“一弓、二弩、三枪、四刀、五剑、六矛、七盾、八斧、九钺、十戟、十一鞭、十二锏、十三挝、十四殳、十五叉、十六耙、十七绵绳套索、十八白打”,这让一个江湖新手一上来就学全十八般武艺,还真是有点为难人家呢。这在古代,天下可都是一群架一群架扎扎实实打出来的。指挥者可以运筹帷幄决胜于千里之外,但是真要上阵的小兵们可就惨多了——谁若是稍有走神,怕是小命就危在旦夕了。还有那血雨腥风却始终有无数人向往的江湖,或迷人或险恶,总得有一技傍身方觉得安心些。可是,这一技说来容易,到底学才可以雄霸天下呢?嗯,其实一般说来我们是不需要担心这个问题的,可是凡事总有例外——比如做梦的时候…

小编不幸的就在梦中穿越回了古代一回,然后面对着师傅一下子扔出来的一堆兵器傻了眼——这该如何下手呢?直到梦醒,耳边回荡的还是师傅那严厉的声音“给你一天时间考虑,明天来见我的时候告诉我你要学什么”。呃,为了明天做梦的时候不挨骂,还是老老实实的选一样东西吧。可是这也不能信手拈来就是嘛,总要有点科学依据,要不怎么能显得出来我这个辛辛苦苦梦中穿越回去的现代人的智商优越性呢?

于是开始狂翻枕边常备的武侠小说。“问世间情为何物,直叫人生死相许”——正沉浸在杨过和小龙女的离别悲伤之中,恍然觉悟,呃,貌似不对,看错章节了…师傅明天才不会管我怎么谈恋爱呢。可是这么多打打杀杀的,金庸老鬼的十四本巨著这到啥年啥月才能看完呀!晚上就得回师傅答案呢。算了,在这个信息时代,自然要倚仗科技的力量——比如,文本分析神马的应该可以搞定吧?先去百度一下,结果度娘说:

得人心者得天下…
得中原者得天下…
得此女者得天下…
得知识者得天下…
得青年者得天下…
得蜀者得天下…

这些怎么看起来这么不靠谱…算了,还是自己动手丰衣足食吧。眼看太阳就要下山了,小编赶紧打开电脑。噼里啪啦一阵键盘声响起,金庸大侠的十四本小说就乖乖的躺在那里了。稍待片刻,等我做好了分析,嘿嘿,晚上就不怕师傅拷问了。都说群众的智慧是无穷的,听说一博彩公司预测大选什么的比那些专门的学者们还要准…我还是先看看那些大侠们都用什么吧!都说剑品即人品,那我们就来看看这些武器的PR值吧(此处纯属开玩笑 http://cos.name/wp-includes/images/smilies/icon_razz.gif ,PageRank还是一个比较好用的计算网络权重的指标)。

然后看看排名,果然还是学剑最好哇!

剑 0.018411053
刀 0.017516021
掌 0.017137869
抓 0.011880115
拳 0.011605281
圈 0.007458074
船 0.005805638
镖 0.004840676
枪 0.004806615
弓 0.003935635
钩 0.003358054
棍 0.003121407
叉 0.002733994
拐 0.002570806
锤 0.002392814
斧 0.002056493
戟 0.001731019
铲 0.001521452
戚 0.00148074

嘻嘻,搞定了晚上梦会师傅的事情,就可以开始玩玩其他的了。顺便,好奇的心情发作…有没有发现,其实这朵花,真的是开了好多瓣呢?一瓣,怕就是一本书吧!

好吧,继续过过瘾…既然都这样了,就开始八卦一下这些人物的关系吧!

等等,什么,射雕三部曲居然不在一块儿!这到底是什么个情况!!!

哎,我的童年彻底毁掉了。什么黄衫姑娘啊,什么郭襄祖师爷啊,原来《倚天屠龙记》跟《神雕侠侣》和《射雕英雄传》根本没那么多血脉相亲…呜呜。

———–废话若干———–
1. 选择金庸的作品只是因为有现成的金庸词库,本来还想弄古龙的呢,结果古龙的没有现成的词库,伤心。
2. 明显的,字数少的作品占劣势,毕竟连接数要少很多呢。
3. “连接关系”的定义和思喆的明朝那些事儿一样,就是在同一个段落中出现。当然,也可以放宽到上下若干段落之内,不过现在已经够复杂的了,再放宽不见得多多少信息量。
4. 可视化部分由Gephi搞定,文本分析部分由R搞定,各取所长嘛。
5. 同义词替换。1.20的上海R沙龙上很多朋友提出来,应该有一些基本的同义词替换,比如“杨过”也可称为“过儿”,小龙女亦作“龙儿”和“姑姑”。这样的替换需要建立一个针对金庸的同义词词典,暂时还没有现成的资源。
6. 同样是沙龙的朋友提出来的,对于关系的定义应该更明确一点,不单单是出现在同一段落。金庸的还好,古龙的文风就更加飘逸,不适合这样定义。然而更细致的定义需要对金庸的文字进行更深入的理解,进行一些语义分析,还有待进一步对于语言理解的深入。

This entry was posted in 数据挖掘与机器学习 and tagged pagerank小说文本挖掘网络图金庸 byLiyun. Bookmark the permalink.

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有