加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

《自然语言处理综论》【PDF】

(2018-04-04 16:52:52)
标签:

人工智能入门书单

自然语言处理综论

语言处理

pdf

电子书

分类: 大数据与人工智能
《自然语言处理综论》【PDF】

内容简介

本书是一本全面系统地讲述计算机自然语言处理的优秀教材。本书英文版出版之后好评如潮,国外许多著名大学纷纷把本书选为自然语言处理和计算语言学课程的主要教材,该书被誉为该领域教材的黄金标准。本书包含的内容十分丰富,分为四个部分,共21章,深入细致地探讨了计算机处理自然语言的词汇、句法、语义、语用等各个方面的问题,介绍了自然语言处理的各种现代技术。从层次的角度看,本书的论述是按照自然语言的不同层面逐步展开的,首先论述单词的自动形态分析,接着论述自动句法分析,然后论述各种语言单位的自动语义分析,最后论述连贯文本的自动分析、对话与会话的智能代理以及自然语言生成。从技术的角度看,本书介绍了正则表达式、有限状态自动机、文本-语音转换、发音与拼写的概率模型、词类自动标注、N元语法、隐马尔可夫模型、上下文无关语法、特征与合一、词汇化剖析与概率剖析、一阶谓词演算、词义排歧、修辞结构理论、机器翻译等非常广泛的内容。本书具有覆盖全面、注重实用、强调评测、语料为本四大特色。在本书的配套网站上,还提供了相关的资源和工具,便于读者在实践中进一步提高。

作者简介

Daniel Jurafsky

在美国加利福尼亚大学获计算机科学博士学位, 现于美国科罗拉多大学语言学系和计算机科学系任教, 并在认知科学研究所工作, 主要研究方向为语言的概率模型和语音信息处理. 由于他在语音和语言处理方面的成就, 1997年获美国NSF职业奖.

James H.Martin

在美国加利福尼亚大学获计算机科学博士学位, 现任职于美国科罗拉多大学计算机科学系和认知科学研究所, 主要研究方向为计算语义学. 机器学习和信息检索.

冯志伟国家教育部语言文字应用研究所研究员. 博士生导师. 先后在北京大学和中国科学技术大学获双硕士位, 在语音和语言的计算机处理领域具有多年的研究经验, 曾在多个国家参与研究和教学工作, 主要研究方向为自然语言处理. 计算语言学和机器翻译, 主要著作有《自然语言的计算机处理》和《数理语言学》等18部。

目录

1章 导论

1.1 语音与语言处理中的知识

1.2 歧义

1.3 模型和算法

1.4 语言. 思维和理解

1.5 学科现状与近期发展

1.6 语音和语言处理简史

1.6.1 基础研究:20世纪40年代和20世纪50年代

1.6.2 两个阵营:1957年至1970

1.6.3 四个范型:1970年至1983

1.6.4 经验主义和有限状态模型的复苏:1983年至1993

1.6.5 不同领域的合流:1994年至1999

1.6.6 多重发现

1.6.7 心理学的简要注记

1.7 小结

1.8 文献和历史说明

第一部分 词汇的计算机处理

2章 正则表达式与自动机

2.1 正则表达式

2.1.1 基本正则表达式模式

2.1.2 析取. 组合与优先关系

2.1.3 一个简单的例子

2.1.4 一个比较复杂的例子

2.1.5 高级算符

2.1.6 正则表达式中的替换. 存储器与ELIZA

2.2 有限状态自动机

2.2.1 FSA来识别羊的语言

2.2.2 形式语言

2.2.3 另外的例子

2.2.4 非确定FSA

2.2.5 使用NFSA接收符号串

2.2.6 识别就是搜索

2.2.7 确定自动机与非确定自动机的关系

2.3 正则语言与FSA

2.4 小结

2.5 文献和历史说明

3章 形态学与有限状态转录机

3.1 英语形态学概观

3.1.1 屈折形态学

3.1.2 派生形态学

3.2 有限状态形态剖析

3.2.1 词表和形态顺序规则

3.2.2 用有限状态转录机进行形态剖析

3.2.3 正词法规则和有限状态转录机

3.3 FST词表与规则相结合

3.4 与词表无关的FSTPORTER词干处理器

3.5 人是怎样进行形态处理的

3.6 小结

3.7 文献和历史说明

4章 计算音系学与文本-语音转换

4.1 言语语音与语音标音法

4.1.1 发音器官

4.1.2 辅音:发音部位

4.1.3 辅音:发音方法

4.1.4 元音

4.1.5 音节

4.2 音位和音位规则

4.3 音位规则和转录机

4.4 计算音系学中的一些高级问题

4.4.1 元音和谐

4.4.2 模板式形态学

4.4.3 优选理论

4.5 音位规则的机器学习

4.6 TTS中从文本映射到语音

4.6.1 发音词典

4.6.2 词典之外的查找:文本分析

4.6.3 基于有限状态转录机(FST)的发音词典

4.7 文本-语音转换中的韵律

4.7.1 韵律的音系学性质

4.7.2 韵律的语音和声学性质

4.7.3 语音合成中的韵律

4.8 人处理音位和形态的过程

4.9 小结

4.10 文献和历史说明

5章 发音与拼写的概率模型

5.1 关于拼写错误

5.2 拼写错误模式

5.3 非词错误的检查

5.4 概率模型

5.5 把贝叶斯方法应用于拼写

5.6 最小编辑距离

5.7 英语的发音变异

5.8 发音问题研究中的贝叶斯方法

5.8.1 发音变异的决策树模型

5.9 加权自动机

5.9.1 从加权自动机计算似然度:向前算法

5.9.2 解码:Viterbi算法

5.9.3 加权自动机和切分

5.9.4 用切分来进行词表的自动归纳

5.10 人类发音研究

5.11 小结

5.12 文献和历史说明

6 N元语法

6.1 语料库中单词数目的计算

6.2 简单的(非平滑的)N元语法

6.2.1 N元语法及其对训练语料库的敏感性

6.3 平滑

6.3.1 1平滑

6.3.2 Witten-Bell打折法

6.3.3 Good-Turing打折法

6.4 回退

6.4.1 回退与打折相结合

6.5 删除插值法

6.6 拼写和发音的N元语法

6.6.1 上下文有关的错拼更正

6.6.2 发音模型的N元语法

6.7

6.7.1 用于比较模型的交叉熵

6.7.2 英语的熵

6.8 小结

6.9 文献和历史说明

...


下载地址:https://cangshuzhe.ctfile.com/fs/3990681-243018476


更多书单和推荐电子书请关注藏书者的新浪博客http://blog.sina.com.cn/cangshuzhe

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有