jiebaR包安装与使用 r语言分词_l000NGag0

http://blog.sina.com.cn/u/3227204473

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

jiebaR包安装与使用 r语言分词

(2014-12-17 15:12:26)

标签：

词库

字典

词性

词典

中文分词

分类： r语言学习

开源介绍文档---最早出现Python

#安装经验：反正就是需要devtools包和rstool工具，其实根本原因是，jiebar包是二进制编码的包，需要这两个工具协助的。

第一步：### install.packages(“devtools”)

library(devtools)

第二步 install_github("qinwf/jiebaR")###这个过程会自动把rstool安装上并配好坏境，我个人很讨厌配坏境变量。所以自动安装比较好。

第三步 install.packages(“jiebaR”)

#使用方法，下面的使用时来自，帮组文档

Examples

### Note: Can not display Chinese character on Windows here.

######简单的分词

words = "hello world"

test1 = worker()#设置分词模式

test1

test1 <= words

####文件分词

## Not run:

test <= "./temp.txt"

#######保留标点符号分词symbol = T

engine2 = worker("mix",symbol = T)

engine2 <= "./temp.txt"

engine2

engine2$symbol = T

engine2

engine2 <= words

###不知道目的是干嘛

engine3 = worker(type = "mix", dict = "dict_path",symbol = T)

engine3 <= "./temp.txt"

## End(Not run)

##关键词的提取

keys = worker("keywords", topn = 1)

keys <= words

###词性识别

tagger = worker("tag")

tagger <= words

#####下面讲下，自定词典吧

show_dictpath() ### 显示词典路径

edit_dict()##编辑词典，会打开用户自定义字典，然后可以加载自己的字典，

案例：

> tagger = worker("tag")

> tagger <= "于英富在江西上大学"

     p      x      p     ns      f      n

  "于" "英富"   "在" "江西"   "上" "大学"

在用户字典中，加入“于英富 nj 20”

> tagger = worker("tag")

> tagger <= "于英富在江西上大学"

       x        p       ns        f        n

"于英富"     "在"   "江西"     "上"   "大学"

多词语怎么办呢？

有个软件叫“深蓝词库转换”可以度娘

可以把搜狗词库转换成结巴词库，你再复制粘贴上去就行了。

下面是我自己的一套方法，就是先把搜狗词库导入r语言，把词性全部设置为名字，然后频率设置为5.再导出来。在文本中替换双引号，最后复制粘贴到jiebar词库中去。

jiebaciku<-function(x){

cnword<-read.csv(x,header=F,stringsAsFactors=F)

n=c()

m=c()

n=rep("n",length(cnword$V1))

m=rep(5,length(cnword$V1))

a=data.frame(cnword$V1,n,m)

write.table(a,"user.csv",row.names=F,col.names=F)

b=paste(getwd(),"/user.csv",sep = "");

return(b);

}

x="E:\\text mining\\stopword\\三国人名.txt"

jiebaciku(x)

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：[转载]SAS数据集的索引

后一篇：gephi使用社群分析

新浪BLOG意见反馈留言板　欢迎批评指正