jiebaR包安装与使用 r语言分词
(2014-12-17 15:12:26)| 标签: 词库字典词性词典中文分词 | 分类: r语言学习 | 
开源介绍文档---最早出现Python
 
 
#安装经验:反正就是需要devtools包和rstool工具,其实根本原因是,jiebar包是二进制编码的包,需要这两个工具协助的。
第一步:### install.packages(“devtools”)
 
第二步 
第三步 
 
 
 
 
#使用方法,下面的使用时来自,帮组文档
 
Examples
### Note: Can not display Chinese character on Windows here.
######简单的分词
words = "hello world"
test1 = worker()#设置分词模式
test1
test1 <= words
####文件分词
## Not run:
test <= "./temp.txt"
#######保留标点符号分词symbol = T
engine2 = worker("mix",symbol = T)
engine2 <= "./temp.txt"
engine2
engine2$symbol = T
engine2
engine2 <= words
###不知道目的是干嘛
engine3 = worker(type = "mix", dict = "dict_path",symbol = T)
engine3 <= "./temp.txt"
 
## End(Not run)
 
keys = worker("keywords", topn = 1)
keys <= words
###词性 识别
tagger = worker("tag")
tagger <= words
 
 
 
 
#####下面讲下,自定词典吧
show_dictpath() ### 显示词典路径
edit_dict()##编辑词典,会打开用户自定义字典,然后可以加载自己的字典,
案例:
> tagger = worker("tag")
> tagger <= "于英富在江西上大学"
p x p ns f n 
"于" "英富" "在" "江西" "上" "大学" 
在用户字典中,加入“于英富 nj 20”
 
> tagger = worker("tag")
> tagger <= "于英富在江西上大学"
x p ns f n 
"于英富""在" "江西" "上" "大学" 
 
 
 
多词语怎么办呢?
 
有个软件叫“深蓝词库转换”可以度娘
可以把搜狗词库转换成结巴词库,你再复制粘贴上去就行了。
下面是我自己的一套方法,就是先把搜狗词库导入r语言,把词性全部设置为名字,然后频率设置为5.再导出来。在文本中替换双引号,最后复制粘贴到jiebar词库中去。
jiebaciku<-function(x){
cnword<-read.csv(x,header=F,stringsAsFactors=F)
n=c()
m=c()
n=rep("n",length(cnword$V1))
m=rep(5,length(cnword$V1))
 
a=data.frame(cnword$V1,n,m)
write.table(a,"user.csv",row.names=F,col.names=F)
b=paste(getwd(),"/user.csv",sep = "");
return(b);
 
}
x="E:\\text mining\\stopword\\三国人名.txt"
jiebaciku(x)

 加载中…
加载中…