加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

一个中文NLP工具-HanLP

(2016-01-04 17:01:23)
标签:

中文

hanlp

分类: NLP
汉语言处理包HanLP
HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

HanLP提供下列功能:
中文分词
  1.最短路分词(Dijkstra精度已经足够,且速度比N最短快几倍)
  2.N-最短路分词(与Dijkstra对比,D已够用)
  3.CRF分词(对新词较有效)
  4.索引分词(长词切分,索引所有可能词)
  5.极速词典分词(速度快,精度一般)
  6.用户自定义词典
  7.标准分词(HMM-Viterbi)

命名实体识别
  1.实体机构名识别(层叠HMM-Viterbi)
  2.中国人名识别(HMM-Viterbi)
  3.音译人名识别(层叠隐马模型)
  4.日本人名识别(层叠隐马模型)
  5.地名识别(HMM-Viterbi)
  
篇章理解
  1.关键词提取(  TextRank关键词提取)
  2.自动摘要(  TextRank自动摘要,提取关键句子)
  3.短语提取(  基于互信息和左右信息熵的短语提取)

简繁拼音转换  
  1.拼音转换( 多音字,声母,韵母,声调)
  2.简繁转换(繁体中文分词,简繁分歧词)

智能推荐
  1.文本推荐(句子级别,从一系列句子中挑出与输入句子/词语最相似的那一句)
  2.语义距离(基于《同义词词林扩展版》)

依存句法分析
  基于清华大学语义依存网络语料的20000句训练集,性能分析见官网文档说明。
  1.MaxEnt依存句法分析
  2.CRF依存句法分析

包使用
  1.下载jar包
    http://hanlp.linrunsoft.com/services.html
  2.下载data
    model太大需要到网盘上下载
  3.配置文件
    hanlp.properties第一行root=data的父目录
    例:root=D:***hanlp/
    配置文件放入classpath(如bin)下

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有