语音识别之概述_makerofu

http://blog.sina.com.cn/u/1560910162

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

语音识别之概述

(2012-08-02 20:44:11)

标签：

马尔科夫

说话人

孤立词

语音识别系统

语音信号

文化

分类：语音信号处理

语音识别是机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术。根本目的是研究出一种具有听觉功能的机器，这种机器能直接接收人的语音，理解人的意图，并作出相应的反应。技术上看，输入多维模式识别和智能接口的范畴。语音识别技术是一项集声学、语音学、计算机、信息处理、人工智能等于一身的综合技术，可广泛应用在信息处理、通信与电子系统、自动控制等领域。

机器听懂人类的语言，一直是追求的目标。有诸多困难

1.语音信号的声学特征随与之前后相连的语音的不同而又很大的变化，且连续语音流中各语音单位之间不存在明显的界限；

2.语音特征随发音人的不同、发音人生理和心理状态的变化而有很大的差异；

3.环境噪声和传输设备的差异也将直接影响语音特征的提取

4.一个语句所表达的意思与上下文的内容、说话时的环境条件及文化背景等因素有关，而语句的语法结构又是多变的，并且语境信息几乎是计算机语音识别无法利用的，所有这些都给语意的理解带来很大的困难

由于出发点不同，识别可分为说话人识别和语音识别。就说话人识别来看，可分为与文本有关和与文本无关两类。从用途上看，可分为说话人辨认和说话人确认。前者判定某一待识别的声音是多个说话者中的一个，是多选一的问题，属于闭集识别范畴。后者判定一个待识别的声音是或不是某一特定话者的语音，其输出只有两种结果，为肯定或者否定的问题。

语音识别有不同的分类方法

按词汇量大小：没有语音识别系统都有一个词汇表，系统只能识别词汇表中所包含的单词。通常按词汇量可分为小词汇量、中词汇量、大词汇量。一般小词汇量包括10-100个词，中词汇量包括100-500个词条，相应的大词汇量至少包含5000个以上的词条。一般情况下语音识别的识别率会随着词汇量大小的增加而下降，因此，语音识别的研究困难是随着词汇量的增加而逐渐增加的。

按发音方式分。语音识别可以分为孤立词识别、连接词识别、连续语音识别以及关键词检出等。孤立词识别中，及其只是识别一个个孤立的音节、词或者短语等，并给出具体识别结果；连续语音识别中，机器识别连续自然的书面朗读形式的语音；而连接词识别中，发音方式介于孤立词和连续语音之间，他表面上看像连续语音发音，但能明显感觉到音与音之间有停顿。这是通常可以采用孤立词识别技术进行串联来实现；关键词检出，通常用于说话人以类似自由交谈的方式的发音，这种发音称为自发发音方式；在这种发音方式下，存在着各种各样影响发音不流畅的因素，如犹豫、停顿、更正等，并且说话人发音中存在大量不是识别词表中的词，判断理解说话人的意思，只从其中一些关键的部分就可做出决定，因此只需要进行其中的关键词识别。

按说话人分：可分为特定说话人和非特定说话人两种。前者只能识别固定某个人的声音。其他人要想使用这样的系统，必须实现输入大量的语音数据，对系统进行训练；而对后者，机器能识别任意人的发音。由于语音信号的可变性很大，这种系统要能从大量的不同人的发音样本中学习到非特定人的发音速度、语音强度、发音方式等基本特征，并归纳出其相似性作为识别的标准。使用者无论是否参加过训练都可以使用一套参考模板进行语音识别。从难度上看，特定说话人的语音识别比较简单，能得到较高的识别率，并且目前已经有商品化的产品；而非特定人识别系统，通用性好、应用面广、但难度也大，不容易获得较高的识别率。

从语音识别的方法分，有模版匹配法，随机模型法和概率语法分析法。这些方法都属于统计模式识别方法其识别过程大致如下：首先提取语音信号的特征构建参考模版，然后用一个可以衡量未知模式和参考模板之间的似然度的测度函数，选用一种最佳准则和专家知识做出识别决策，给出识别结果。其中模版匹配法是将测试语音与参考模板的参数一一进行比较与匹配，判决的依据是失真测度最小准则。随机模型法是一种使用隐马尔科夫模型（HMM）来对似然函数进行估计和判决，从而得到相应的识别结果的方法。由于隐马尔科夫模型具有状态函数，所以这个方法可以利用语音频谱的内在变化（如说话速度、不同说话人特性等）和它们的相关性。概率语法分析法适用于大范围的连续语音识别，他可以利用连续语音中的语法约束知识来对似然函数进行估计和判决。其中，语法可以用参数形式来表示，也可以用非参数形式来表示。

语音识别中最简单的是特定人、小词汇量、孤立词的语音识别，最复杂最难解决的是非特定人、大词汇量、连续语音识别。无论是哪一种，当今采用的主流算法仍然是隐马尔科夫模型方法。近年来，基于神经网络、支持矢量机、遗传算法等语音识别技术方兴未艾。

语音识别系统本质上是一种模式识别系统。它的基本框架是：语音输入---预处理与数字化--特征提取----》训练和识别----》（训练参考模式库）---》模式匹配--》后处理--》结果

与其他模式识别一样，包含有特征提取，模式匹配，参考模式库三个基本单元。由于语音识别系统所处理的信息是结构非常复杂、内容及其丰富的人类语言信息，因此它的系统结构比通常的模式识别系统要复杂得多。

后处理单元，可能涉及句法分析、语音理解、语意网络以及语言模型等，他往往不是一个孤立的单元，而是与模式匹配计算单元、参考模式库融合在一起，构成一个逻辑关系复杂的系统整体。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：汉语语音规则合成

后一篇：基于矢量量化的识别技术

新浪BLOG意见反馈留言板　欢迎批评指正