从今天开始正式介绍中文分词详细内容。
首先再次声明中文分词原理:所谓的中文分词并非真正意义上的将一句话分成一个个词,而是将一个个汉字序列,并列成一个个词的序列。后面如有“并词”之所,跟“分词”没有任何冲突。
id code property explanation
1 Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。
2 a 形容词 取英语形容词adjective的第1个字母。
3 ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。
4 an 名形词 具有名词功能的形容词。形容词代码a和名词代码n并在一起。
5 b 区别词 取汉字“别”的声母。
6 c 连词 取英语连词conjunction的第1个字母。
7 Dg 副语素 副词性语素。副词代码为d,语素代码g前面置以D。
8 d 副词 取adverb的第2个字母,因其第1个字母已用于形容词。
9 e 叹词 取英语叹词exclamation的第1个字母。
10 f 方位词 取汉字“方”
11 g 语素 绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。
12 h 前接成分 取英语head的第1个字母。
13 i 成语 取英语成语idiom的第1个字母。
14 j 简称略
奋斗了N个日夜,终于全部完成,从词库,到分词系统,全部完成....
速度:114W字/S~300多W字/S;(据说海量科技的速度是:33.9万字/秒)
正确率:96.8%~97.9%(海量科技号称正确率为99.5%,将他提供的研究版本统计了一下,正确率应该没那么高,估计跟我的差不多);
下周就有新的工作了,好兴奋,终于可以换个想法了...
以后就有时间系统的将分词公布上来了.
前些天在公司新闻组上看到过老死的27个信号,汗一个,自己占了一大半...
看来以后得好好休息了,一定不要超过11点...
在公司呆了一年多,几乎每天都是12点钟之后回去,有时还不回去,
上次体检之后明显感觉自己身体不如以前,很容易就感觉疲惫。
1.经常感到疲倦,忘性大;
>>>很容易感觉疲倦,健忘好象已经好久了。
2.酒量突然下降,即使饮酒也不感到有滋味;
>>>10/1前体检,医生说不要喝酒,就喝的很少了
前天晚上,下班后打完篮球,继续改分词中的BUG,大量的弱智BUG让我非常生气,为何如此简单的句子计算机都会出错?我们的分词算法中到底缺乏了人类分词的一个什么信息.我拼命的去回忆自己分词的时候用到过哪些信息,人到底是如何分词的?
苦苦思索中,晚上9:30终于想到一个人类分词的一个信息,我试着去模拟把这个信息加如入分词,用笔划出一个证明公式.晚上10点半:迫不及待的给老大发了一份公式证明.接着就开始写相关代码.11点半:公司关门,无奈以最快的速度跑回家.
每天回家我都要看上一会电视,什么节目都看,也从不管有多晚,因为每天白天工作一天脑子都在思维,在高速旋转,似乎是惯性,回家后如果直接睡觉,思维的旋转根本没法停下来.看会电视的目的是为了让脑神经轻松下来,让旋转的转盘停下来,这样可以达到防止失眠的效果.
看电视,冲凉到1点半,躺床上,脑子又开始想起那个算法,无奈,早就猜到是个不眠之夜,干脆先买两瓶酒放着,2点多,到外面小买店敲门拿了两瓶酒,躺床上接着想.
方法可行是肯定的,而且自己已经证明了,需要考虑的是
1:本博客内容均为本人心血,请勿抄袭用于任何商业用途,如需转载,引用,请你能尊重一下本人意见,让俺知道本人的东西到哪去了。先行谢过。
2:由于本博客篇幅有1W的限制,有些篇我分开发,给你带来不便,请见谅!