加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

jiebaR包安装与使用  r语言分词

(2014-12-17 15:12:26)
标签:

词库

字典

词性

词典

中文分词

分类: r语言学习

开源介绍文档---最早出现Python

 

 

#安装经验:反正就是需要devtools包和rstool工具,其实根本原因是,jiebar包是二进制编码的包,需要这两个工具协助的。

第一步:### install.packages(“devtools”)

                library(devtools)

第二步   install_github("qinwf/jiebaR")###这个过程会自动把rstool安装上并配好坏境,我个人很讨厌配坏境变量。所以自动安装比较好。

第三步    install.packages(“jiebaR”)

 

 

 

 

#使用方法,下面的使用时来自,帮组文档

 

Examples

### Note: Can not display Chinese character on Windows here.

######简单的分词

words = "hello world"

test1 = worker()#设置分词模式

test1

test1 <= words

####文件分词

## Not run:

test <= "./temp.txt"

#######保留标点符号分词symbol = T

engine2 = worker("mix",symbol = T)

engine2 <= "./temp.txt"

engine2

engine2$symbol = T

engine2

engine2 <= words

###不知道目的是干嘛

engine3 = worker(type = "mix", dict = "dict_path",symbol = T)

engine3 <= "./temp.txt"

 

## End(Not run)

 ##关键词的提取

keys = worker("keywords", topn = 1)

keys <= words

###词性 识别

tagger = worker("tag")

tagger <= words

 

 

 

 

#####下面讲下,自定词典吧

show_dictpath() ### 显示词典路径

edit_dict()##编辑词典,会打开用户自定义字典,然后可以加载自己的字典,

案例:

> tagger = worker("tag")
> tagger <= "于英富在江西上大学"
                ns          n 
  "于" "英富"   "在" "江西"   "上" "大学" 

在用户字典中,加入“于英富 nj 20”

 

> tagger = worker("tag")
> tagger <= "于英富在江西上大学"
                  ns              n 
"于英富"     "在"   "江西"     "上"   "大学" 

 

 

 

多词语怎么办呢?

 

有个软件叫“深蓝词库转换”可以度娘

可以把搜狗词库转换成结巴词库,你再复制粘贴上去就行了。

下面是我自己的一套方法,就是先把搜狗词库导入r语言,把词性全部设置为名字,然后频率设置为5.再导出来。在文本中替换双引号,最后复制粘贴到jiebar词库中去。

jiebaciku<-function(x){

cnword<-read.csv(x,header=F,stringsAsFactors=F)

n=c()

m=c()

n=rep("n",length(cnword$V1))

m=rep(5,length(cnword$V1))

 

a=data.frame(cnword$V1,n,m)

write.table(a,"user.csv",row.names=F,col.names=F)

b=paste(getwd(),"/user.csv",sep = "");

return(b);

 

}

x="E:\\text mining\\stopword\\三国人名.txt"

jiebaciku(x)

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有