汉语言处理包HanLP
HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
HanLP提供下列功能:
中文分词
1.最短路分词(Dijkstra精度已经足够,且速度比N最短快几倍)
2.N-最短路分词(与Dijkstra对比,D已够用)
3.CRF分词(对新词较有效)
4.索引分词(长词切分,索引所有可能词)
5.极速词典分词(速度快,精度一般)
6.用户自定义词典
7.标准分词(HMM-Viterbi)
命名实体识别
1.实体机构名识别(层叠HMM-Viterbi)
2.中国人名识别(HMM-Viterbi)
3.音译人名识别(层叠隐马模型)
4.日本人名识别(层叠隐马模型)
5.地名识别(HMM-Viterbi)
篇章理解
1.关键词提取(
TextRank关键词提取)
2.自动摘要(
TextRank自动摘要,提取关键句子)
3.短语提取(
基于互信息和左右信息熵的短语提取)
简繁拼音转换
1.拼音转换( 多音字,声母,韵母,声调)
2.简繁转换(繁体中文分词,简繁分歧词)
智能推荐
1.文本推荐(句子级别,从一系列句子中挑出与输入句子/词语最相似的那一句)
2.语义距离(基于《同义词词林扩展版》)
依存句法分析
基于清华大学语义依存网络语料的20000句训练集,性能分析见官网文档说明。
1.MaxEnt依存句法分析
2.CRF依存句法分析
包使用
1.下载jar包
http://hanlp.linrunsoft.com/services.html
2.下载data
model太大需要到网盘上下载
3.配置文件
hanlp.properties第一行root=data的父目录
例:root=D:***hanlp/
配置文件放入classpath(如bin)下
加载中,请稍候......