一个中文NLP工具-HanLP_daisycolour

http://blog.sina.com.cn/u/2331051670

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

一个中文NLP工具-HanLP

(2016-01-04 17:01:23)

标签：

中文

hanlp

分类： NLP

汉语言处理包HanLP

http://hanlp.linrunsoft.com/doc/_build/html/index.html

https://github.com/hankcs/HanLP

HanLP是由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

HanLP提供下列功能：

中文分词

1.最短路分词（Dijkstra精度已经足够，且速度比N最短快几倍）

2.N-最短路分词（与Dijkstra对比，D已够用）

3.CRF分词（对新词较有效）

4.索引分词（长词切分，索引所有可能词）

5.极速词典分词（速度快，精度一般）

6.用户自定义词典

7.标准分词（HMM-Viterbi）

命名实体识别

1.实体机构名识别（层叠HMM-Viterbi）

2.中国人名识别（HMM-Viterbi）

3.音译人名识别（层叠隐马模型）

4.日本人名识别（层叠隐马模型）

5.地名识别（HMM-Viterbi）

篇章理解

1.关键词提取（ TextRank关键词提取）

2.自动摘要( TextRank自动摘要,提取关键句子)

3.短语提取（基于互信息和左右信息熵的短语提取）

简繁拼音转换

1.拼音转换（多音字，声母，韵母，声调）

2.简繁转换（繁体中文分词，简繁分歧词）

智能推荐

1.文本推荐（句子级别，从一系列句子中挑出与输入句子/词语最相似的那一句）

2.语义距离（基于《同义词词林扩展版》）

依存句法分析

基于清华大学语义依存网络语料的20000句训练集，性能分析见官网文档说明。

1.MaxEnt依存句法分析

2.CRF依存句法分析

包使用

1.下载jar包

http://hanlp.linrunsoft.com/services.html

2.下载data

model太大需要到网盘上下载

3.配置文件

hanlp.properties第一行root=data的父目录

例：root=D:***hanlp/

配置文件放入classpath(如bin)下

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：stanford POS tagger 训练(一)

后一篇：[转载]实拍：阳平镇蔚为壮观的粉丝晾晒

新浪BLOG意见反馈留言板　欢迎批评指正