【仅供学习,个人翻译,错误难免,未经允许请勿转载】【来源:(Noise Reduction in Speech
Processing)】
1
引言
1.1 语音去噪
我们所生活的世界充满了各种不同的声音;没有任何声源的世界是很难想象的。一些声音可能源于远处的声源,然而,这些声源在到达我们的耳朵之前就已经消亡,因此,我们并不能听到它们。而其它的一些声音尽管到达了我们的耳朵,但它们的能量很弱以至于我们也不能清晰地感知到它们。当然,还存在着我们能够清楚地感知到的声音。在这些声音中,有一些可能传达很重要的信息,而其它的一些则可能没有携带任何有用的信息,而只是对包含有用信息的的声音进行干扰。携带我们想要的或需要的信息的声音一般用“期待的”来加以描述。而那些没有携带任何有用信息而仅仅干扰期望声音的声音则被称之为“噪声”。
“噪声”这一词汇是爱因斯坦于1905年造出来的,当时,他认为这一表达可以作为一个有用的工具来建立原子存在理论。从那以后,噪声这一词汇就充满了科技的每个领域,而且被认为是数不清的大发明和大创造的驱动力,比如原子存在理论,布朗运动理论,大爆炸理论,信息论,最优滤波理论等等。关于噪声有很多现存的振奋人心的故事。很有意思的例子之一就是大爆炸理论。在19世纪30年代,贝尔实验室在新泽西州的Crawford山建立了一个大的旋转天线来辨别和理解各种不同的噪声源——危害最近引入的大西洋彼岸的无线电服务。该研究组发现,当排出了各种已知的声源之后,无论这个天线朝向于哪个方向,空气中总存在一种持续的残留“嘘嘘声”。当时,现存的有两种关于宇宙的具有竞争性的理论。一个是大爆炸模型,该模型提出了一个特殊的创建时刻——在某个快速爆炸之后。哈勃已经观察到,星系彼此之间发生着移动,并且是距离越远则移动越快。同时,伽莫夫和拉尔夫已经证明,大爆炸理论能够解释氢气和氦气的丰富性。依据大爆炸理论,他们以及其他的人预测,原始的辐射应该能作为一个等方向性的具有一个超过10k的高温的黑色主体场被检测到。另一理论是霍伊尔,金和邦迪提出的稳态模型,该模型实际上是回溯到(归结为)关于宇宙的保守派观点,除开它包含一个连续建立和爆炸的元素。在20世纪60年代早期,工作在贝尔实验室的威尔森和彭齐亚斯使用6米孔天线于Crawford山上检测到了具有各向同性的残留辐射。当时彭齐亚斯询问迪克(普林斯顿大学杰出的物理学家,当时主要从事查找和测量残留射线)测量到的是什么,询问可能的解释,迪克很快意识到彭齐亚斯和威尔森发现的是什么东西。这个例子表明了在确认大爆炸理论中噪声所具有的的重要性。
然而,由于噪声弥漫在研究和工程领域的各个方面,因而其含义也发生了变化。现在,很多领域关于噪声有它们自己的定义和历史,且在多数情形下,噪声定义已经远离了它的原始(基本)定义——作为一种思想,一种主题,一种领域,或一种工具。尽管这样的演化伴随着失真,但确实使得特殊领域问题的描述和理解变得容易一些。就本文中的问题而言,我们遵循在信号和语音处理领域中的传统含义,即噪声一词用于表征任何不想要的信号——干扰测量,处理,以及期望的信息容忍语音信号的通信。
基于噪声的这一定义,人们很有兴趣知道噪声对于语音通信的影响。事实上,在过去的四十年中,这一问题已经成为了人与人和人与机器通信中研究最多的问题。我们可能都知道,这一问题非常复杂,因为噪声的存在可能使得语音信号的特性发生很大的变化。根据在通信过程中噪声引入阶段的不同,这些变化可以归结为两类。
(1)说话/传递端的变化。当感觉到背景噪声的干扰时,说话者会倾向于更改它的/他的说话方式,以便力图使依赖于带噪媒介的通讯的效率增加。该现象称之为Lombard效应。该现象使得语音强度和特性都发生变化。皮尔森、班奈特、费戴尔等人已经通过实验对变化强度进行了量化。简而言之,在很多带噪环境中,说话者将增加他的/她的发声强度约0.6dB(背景噪声每增加1dB后达到一个新的水平时)。但是语音特性的变化是非常难以建模的。
(2)倾听/接收端的变化。在Lombard效应中,噪声以间接的方式使得语音统计发生变化。但是在很多的情形中,噪声可能直接影响语音信号。主要存在两种形式。第一种发生在噪声和语音信号统计相关的情形。结果,加性噪声直接修改语音信号的谱值和特性。另外一种发生在噪声和语音不相关的情形下,因此,噪声对语音的特性不产生影响。然而,观察信号的特性和期望语音信号的特性有很大的不同,因为观察信号是语音和噪声的混合体。
不管语音特性因噪声产生了怎样的变化,噪声将严重地影响听者对于观察信号的感知及机器对于观察信号的处理。较为积极的是,如果噪声强度不太高,语音通信仍然是可行的,但是这时的语音将缺乏自然性和舒适性。如果悲观一点看,如果噪声很强,语音信号完全的淹没于噪声中时,语音通信将变得很困难甚至不可能。因此,为了使得出现噪声的语音通信变得可行,自然和舒适而不管噪声的水平,在存储、变换和播放之前,开发数字信号处理技术来清除采集到的信号是非常必要的。这一问题通常称之为噪声去噪或者语音增强。
任何不想要的信号都可能成为噪声,这一事实使得去噪成为一个难于处理的问题。现在人们仍然不清楚这一问题究竟应该用一个什么样的数学模型表示,更别说处理方法了。因此,作为对寻求通用解法的替代,语音处理领域的研究者和工程师采用了实用的处理方法:基于噪声的产生机制对噪声进行归类,对每一类采用不同的处理方法。一般而言,噪声被分为下面的四类基本的类型。
(1)加性噪声。加性噪声可能源于各种不同的情形。一些来源于自然的声源,而其它的一些可能源于人工的引入,比如语音编码器中的舒缓的噪声
(2)回声。声学回声基于扬声器和麦克风之间的耦合发生。回声的存在将使得对话非常的困难甚至变得不可能。
(3)混响。混响是多通道传播的结果,由附件产生。混响能够产生谱失真,使得语音可懂度得到损害。
(4)干扰。来源于并发的声源的干扰。在电话会议和电话协作中,每个会议场地具有多个会议参与者和扬声器都是可能的。因此,此时将产生很多具有竞争性的声源。
对于这四种不同噪声的处理已经产生了很多不同的信号处理技术。这包含去噪技术(或语音增强),回声消除和抑制,语音去混响,源分离等,其中的每一个方面都是一个丰富的研究课题。针对这些研究的较为广泛的覆盖可以在文献[15][72]中找到。本专题将主要关注(加性)噪声去噪技术,即排除和减少加性噪声的影响。因此,从现在开始,我们将噪声的定义限制为加性噪声。
在这一定义之下,观察到的麦克风信号可以建模为干净语音和噪声的叠加。那么,去噪的目的将变成从带噪语音中恢复原始干净语音信号的问题。该问题可以描述为一个参数估计问题,最优干净语音的估计可以通过最优化一些误差准则获得,比如干净语音和其估计之间的均方误差(MSE),信噪比(SNR),给定带噪语音的干净语音的后验概率密度等等。不幸的是,源于信号处理视角的最优估计并不能与人耳感知的最优质量相对应。客观测量和主观质量间的不一致性迫使研究人员不得不思考用于去噪的评价标准。去噪问题的目标后来得以延伸扩展,可以归结为获得下面三个主要目标中的一个或者多个:
(1)提高可懂度、信噪比等这样的客观性能准则;
(2)提高受污染语音的感知质量;
(3)作为一个预处理器,提高其它语音处理应用对噪声的鲁棒性(比如语音编码,回声消除,自动语音识别等)。
不同的目标可能产生不同的语音估计。同时满足三个目标是非常困难的。基于一个特定的目标(性能准则),去噪问题的困难和复杂度可能发生很大的变化,这依赖于不同的因素,比如麦克风的数目。一般而言,麦克风数目越大,去噪相对来说越容易。比如,当有麦克风阵列可以使用时,波束可以形成以及指向期望的特定方向。结果,期望方向的信号传播将得以传递而不会发生退化,而来源于其它的方向的信号将或者受到某种程度的去除或者完全的加以拒绝。在双麦克风情形下,一个麦克风用于接收带噪语音信号,另一个用于则用于测量噪声能量场,于是,我们可以基于自适应去噪方法利用第二个麦克风的信号作为噪声干扰值来消除第一个麦克风中的噪声。然而,现今的很多的通讯终端只安装有一个麦克风。在这种情形下,带噪语音是我们可以获得的唯一来源,因此,基于很多复杂的原因,语音去噪成为了一个非常具有挑战性的问题。首先,噪声参考值不能获得,干净语音不能被预处理。第二,噪声的自然度和特性会根据不同的应用发生不同的变化,甚至于在同一应用的不同时间发生变化。为了解释这一问题,图1.1给出了小轿车噪声信号和干扰房间中的噪声信号的谱[谱值在不同的时间点计算(相差两秒)]。可以看到奇汽车噪声和房间干扰噪声的谱非常不同。即使是对于相同的干扰房间而言,在不同的时间点测量到的噪声特性也是不一样的。除此之外,语音信号是高度非平稳的。估计处于噪声中的语音的快速变化特性是很难的。尽管具有这样的诸多挑战,人们对这一问题已经给与了很多的关注,因为实在是具有太多的应用需要借助于这一解决方法。
1.2 去噪范例
本书通过分析和处理单麦克风获得的带噪语音来解决如何去噪这一具有挑战性的问题,而不借助于其它的辅助信息。本书所使用的通用的模型如图1.2所示。模型始于一个干净语音信号(源于期望的说话者),x(k),该语音被不想要的加性噪声v(k)所污染。x(k)和v(k)叠加得到的带噪语音y(k)首先被处理以决定是否我们期望的当前有出现或者没有出现。基于检测结果和输入的带噪语音,噪声和语音统计值(如协方差矩阵和功率谱密度)得以估计。这些统计值将用于估计去噪滤波器。该滤波器在最优化准则上(如MSE)是最优的。滤波器可能是次优的,在滤波器中,参数值引入的目的是为了更好的控制输出语音的质量。估计得到的滤波器被用于带噪语音来滤掉噪声信号,从而得到输出语音信号z(k),该值是干净语音x(k)的估计值。
无论是从理论上还是实际的角度上来讲,本文所强调的问题都是非常重要的。为了说明这一点,我们将给出Diethorn等提出的一个很好的多部门开会的例子。在多部门开会的例子中,每个会议点的麦克风收集到的背景噪声以相加的形式在网桥处与其它各点的噪声信号组合。因此,每个会议点的扬声器产生的是所有其它地点的所有噪声的组合和噪声。考虑一个三点会议情形,房间中,各个位置的噪声都是平稳的且各自独立,具有的功率谱是德尔塔。每个扬声器接受其它两个地方的噪声,产生的总的噪声功率谱是2倍德尔塔,这个值比两点干扰会议高3dB。现在,如果我们假设一个P点的会议,每一处接受到的噪声功率谱的总值是(P-1)德尔塔,这个值比德尔塔大。这还是理想的情形。实际上,在语音通讯网络中存在很多处理操作,比如语音编码,转码,自动增益控制处理等。每一种操作都可能加速噪声水平。因此,噪声问题是非常严重的,尤其是当与会者数目众多,且没有语音去噪,此时,这种背景下的通讯几乎是不可能的。
除了多点会议之外,还有很多的其它应用需要用到噪声取出技术。下面的是一个简短的列表:
(1)免提通讯
(2)助听器
(2)音频桥
(4)电话会议和网真系统
(5)免提人机交互
(6)汽车和移动电话
(7)驾驶舱和带噪工厂
(8)高质量语音编码
为了总结这一部分,我们可以直接称有很多的语音相关的应用需要用到降噪技术。研究团体和工程团体付出的大量的努力在开发实际的和可靠地去噪技术都是必不可少的。(在去噪技术能够广泛部署之前。)
1.3 去噪研究的简短历史
去噪研究已经持续了超过40年的时间了。在这期间,人们在这一课题上的研究已经获得了大量的进步。为了了解已有技术的基本概念和基本技术,简要的回顾研究亮点和里程碑点是值得的。当然,这一回顾只是简要的而非详细综合的。
最早的试图对语音进行增强的算法研究是在20世纪60年代提出的。在1960年的贝尔实验室,Schroeder提出了一个降低通讯环境中的语音中的噪声的系统。该系统的原理图在图1.3中给出。要注意的是,为了阐述方便,该原理图与其原始形式有一些不同。正如我们所看到的,输入的带噪语音信号y(t)(其中t表示连续时间)是干净语音x(t)和噪声v(t)的叠加,即:y(t)=x(t)+v(t),且该信号被分成M个子代。对每个子代而言,一个整流器和低通滤波器串联起来用于估计带噪语音谱包络。每个对应子代中的噪声通过具有电阻器、电容器和二极管的模拟电路加以估计,从而得到干净语音谱包络的每个子代估计值。接下来,第二个整流过程被加以使用,目的是使得减法得到的负数值为0。调整后的干净语音谱包络估计值(称之为增益滤波器)与没有修改的子代信号相乘。最后,全带信号z(t)从所有的子代信号构建而来,此处,z(t)是x(t)的估计值。如我们所见,Schroeder的系统实际上是一个谱减技术,只不过是基于模拟器件的实现。然而,直到20世纪70年代晚期更多的正式的方法出现时这一工作才得到去噪研究组织的了解。
在20世纪70年代这十年中,基于谱修改的技术得到了很大的进展。噪声去噪这一研究高峰的出现在很大程度上源于数字信号处理算法和数字信号处理硬件的发展,当时,这两者都达到一个卓越的程度。在1974年,维斯、Aschkenasy和帕森等研究开发了一个谱整形方法,该方法在滤波器中使用谱剪切技术来移除低能量激励,即推测意义上的噪声。几年以后,Boll在他的教育论文中开始了谱减法的数字域的实现。Boll可能是第一个明确的在数字短时傅里叶谱中表示幅度谱减法的。尽管数字短时傅里叶分析在早期已经由Allen和Portnoff等进行研究。不久之后,McAulay和Malpass将这一谱减思想用于基于统计估计的框架中,提出了一大类谱减估计器,包含幅度谱减法,功率谱减法,维纳滤波器法,最大似然谱包络估计法等。他们也是第一个建立起谱减法和维纳法之间的联系的人。几乎同时,Lim和Oppenheim,在他们的里程碑研究工作中,提出了第一个去噪或语音增强的综合性方法。此时,谱减法得以讨论(同时在估计框架中),并得以和其它的语音增强方法进行比较。同时,Sondhi,Schmidt和Rabiner等出版了很多的实现结果,这主要源于Schroeder等在20世纪60年代的工作。
在20世纪80年代,很多的去噪算法的基本思想得以出现和出版。总的来说,这些思想一般可以分为两类,即基于谱减的估计理论和基于语音模型的方法。谱恢复技术将去噪问题视为一个鲁棒性谱估计技术,即从带噪语音谱中估计出干净语音谱值。在1984年,Ephraim和Malah基于统计估计理论开发了一个最优谱幅度和一些谱相位估计器。他们的论文在去噪研究中被广泛的引用(以及McAulay和Malpass的工作)并在很大程度上认为是最早的将统计理论用于去噪中的。同时,这一成果也是最早从理论上得出干净语音谱相位的最优估计就是带噪语音谱的相位值。因此,去噪这一基本问题成为干净语音谱幅度估计问题。(这一结果之前已经使用,但是主要是基于实验观察)。在这一工作之后,很多统计谱估计器得以研究,包括最小均方误差对数谱估计器,最大似然功率谱估计器,最大后验概率谱幅度估计器等等。受到McAulay和Aalpass以及Ephraim和Malah等人的工作的激励,如今仍然还有很多人致力于寻求更好的谱幅度估计器。基于模型的方法也将去噪问题视为一个估计问题。比较而言,在这一方法上,描述人类语音生成的数学模型和基于该模型的参数估计得以实现,和原始的信号空间相比,这将具有极小的维度。Lim和Oppenheim研究了语音的谐波模型(正弦波模型)并开发了一个用于语音去噪的梳子滤波技术。在1987年,Paliwal和Basu开发了一个基于线性预测技术和卡尔曼滤波的降噪技术。在LPC之下,该方法的基本思想是,给定的在时刻k的语音样本点可以表示成过去一些样本的线性组合。20世纪80年代,LPC模型广泛地用于语音分析,语音编码和语音识别中,但是Paliwal和Basu则首先将LPC模型和卡尔曼滤波结合用于语音去噪中。从那以后,为了让这一方法更加的实用,人们努力对此作出了很多的改进。
20世纪90年代,无论是从理论上还是从实际应用上,很多重要的里程碑成果都出现了。在理论上,HMM被从语音识别中借用过来用于语音去噪中。基于HMM的方法基本上与20世纪80年代的基于统计的谱估计器类似。不同在于统计估计器假定了干净语音信号和噪声信号的明确的概率密度函数,从而在带噪语音下的干净语音条件期望值得以估计;然而在基于HMM的方法中,未知的语音和噪声的概率密度函数是从训练序列中训练得到的。同时,基于子空间的方法在Dendrinos、Bakamidis和Carayannis以及Ephraim和Van Trees的研究下开始出现。事实上,基于子空间的方法是借助于KL变换将带噪语音向量映射到一个不同的域实现的。其中,KL变换要么通过带噪信号的相关矩阵的估计的特征值分解实现,要么通过使用对带噪信号向量处理的Toeplitz矩阵的单值分解实现。变换之后,语音信号将只占据整个空间中的一部分,从而整个向量空间可以分为两个子空间:信号加噪声子空间和噪声子空间。噪声统计值将从纯噪声子空间中估计出来。从应用上来讲,去噪技术在通讯上得到了极大的应用。很多参数编码器,比如增强的变速编码器(EVRC),自适应多速率编码器(AMP)等,均将去噪技术集成到语音压缩中。
1.4 本书组织结构
本书中材料组织为12章节,包括本章的内容。我们试图从信号处理的角度在接下来的章节中阐述覆盖大多数去噪技术的基本概念和基本技术。各章中讨论的材料如下。
第2章给出了一个关于去噪问题的概览。处理噪声的大多数简单的和直接的方法均是在时间域中通过线性滤波实现的。然而,在变换域空间中处理这一问题通常能够获得更好的效果。这是因为,如果变换域空间选择合适,语音和噪声在这一空间中将能够得到很好的分离,从而使得噪声统计值的估计变得更加容易,以至于得到最优的去噪滤波器。因此,我们将不仅在时间域中讨论如何对这一问题的建模,还将在两个很广泛的变换域空间中对这一问题进行讨论,即频率域和KL变换域。
在设计和实现去噪滤波器中的一个关键问题是如何评价滤波器的性能。第3章将关注性能评估问题。我们将给予信号处理技术提出一些有用的评价措施。这些评价标准不仅仅有助于不同域中的滤波器的设计,它们还能够帮助我们理解去噪在现实中是如何实现的已经我们需要为此去噪问题所付出的代价。
大多数的去噪滤波器是基于最优化一些误差准则实现的。迄今为止,使用最多的是均方误差准则(MSE)。在第4章中,我们MSE和其在时间域、频率域和KL域的归一化形式。我们将证明这一归一化的形式(归一化的MSE(NMSE,既可以是子代,也可以是全带))个域中均严格的依赖于输入信噪比和第3章中提出的其它的一些评价准则,从而使得NMSE不仅仅在最优滤波器中的推导很有用,在分析去噪性能中也同样很有用。
在去噪背景中,直接比较输出信噪比和输入信噪比是非常重要的。为了表明滤波器是否能够降低噪声,这一问题是很基本的。然而,MSE和NMSE,这些常用的用于去噪滤波器的推导的准则,实际上并不是与输出信噪比直接相关的,即使直观地讲是应该相关的。在第5章中,我们提出了一个MSE准则的修改准则,称之为均方皮特森相关系数(SPCC),在这里,输出信噪比看上去更加的自然。我们还将开发这一系数在不同域中的其它形式。
在第6章中,我们将讨论不同域中SPCC系数的很多有意思的特性。这些基本特性建立起了SPCC,输入信噪比,输出信噪比,以及其它的一些性能评价准则之间的关系。引进这些特性后,在很多情形下,用SPCC的一个简单的视角推导和分析最优噪声滤波器均是可能的。
在第7章中,我们将在时间域中推导各种不同形式的去噪滤波器。主要焦点将集中在维纳滤波器(在最小均方误差意义上是最优的)和很多与此有关的已知的算法。我们还将讨论很多该滤波器的很多基本的好有趣的特性,以及证明维纳滤波器是以增加语音失真为代价而获得去噪效果的。为了平衡平衡去噪和语音失真,我们提出了一个平衡的滤波器,该滤波器从一个限制的MSE准则上推导而来,可以用于调整去噪量和语音失真之间的平衡。我们还将讨论众所周知的子空间方法,该方法可以视为平衡滤波器的一个特殊实现。
尽管时间域是可以最直接工作的域空间,但是该域中推导得到的滤波器在性能调整上没有较大的自由。比如,实际上,噪声不一定是白色的,在很多情形下,其能量可能聚集在某些频带或频率上。在这样的情形下,设计基于子代的滤波器是更加有有益的。在第8章中,我们将讨论频率域中去噪滤波器的设计,该域是时间域的变换。迄今为止,频率域具有大多数的去噪滤波器。因为:1)不同频率(不同频谱)的滤波器是独立设计设使用的,这一设计提供了处理色噪声和限带噪声极大的灵活性;2)我们的很多关于语音生成和语音感知的
知识和理解与频率有关;3)由于快速傅里叶变换(FFT)的存在,频率域的滤波器一般都非常的有效。我们将开发一些广泛使用的经典的频率域滤波器并讨论它们的特性。
尽管频率域的滤波器得到了广泛的研究,但频率域并不是我们可以唯一使用的域。还有很多其它的域在设计去噪算法中能够提供很多优势。在第9章中,我们将考虑KL域。我们在该域中推导两类(分类基于子代滤波器长度)广泛的滤波器。第一类与频率域滤波器相似,是通过对带噪语音帧进行滤波得到干净语音帧估计值的,而第二类不仅对当前帧还对之前的几帧进行滤波得以去噪的。我们还将证明,当与第二类相关的参数选择合理的话,该类方法能够获得更好的去噪效果。
第10章基本上是第9章的扩展。在这一章中,我们引入一个新的变换域,在这之中,
任何单一的(正交的)矩阵均可以用于构造前向(分析)和逆向(合成)变换。这一新的域
可以视为KL变换的通用扩展。工作在这一通用域的优势是很多的,比如不同的变换可以用于彼此间的交换,而不需要改变算法公式(滤波器公式),而且比较不同的变换的去噪性能也变得更加的容易。我们强调的是在这一通用的变换域中的不同的最优和次优滤波器的设计,包含维纳滤波,参数维纳滤波,一些平衡滤波器等等。我们还将比较其它的不同的变换在去噪上的不同性能,包含KL变换,傅里叶变换,余弦变换,Hadamard变换等。
第11章可以视为第8章的扩展。第8章考虑了连续频率域中的最优去噪滤波器,其中的离散语音信号的频率域描述是通过离散时间傅里叶变换得到的。在11章中,我们将焦点移动到DFT域,其中,属于语音的频率域描述是通过短时离散傅里叶变换得到的,或者简化的短时傅里叶变化。STFT相对于DTFT,我们不得不将很多效应的影响考虑进来,比如循环卷积(可能导致锯齿失真)和有限帧长(可能改变谱的统计分布)。我们将STFT域中的去噪问题归结为滤波问题和估计问题。我们在该域中提出语音和噪声的统计模型,推导基于各种误差准则的估计器。
在各种语音处理中,噪声去噪好、能够获得很多的应用。尽管如此,这认识一个很难的问题,因为技术问题和声学环境在不同的应用中可能发生较大的变化。结果,人们很难(即使可能)找到一个通用的算法用于各种不同的实际应用环境中。为了描述这一问题的困难性,在12章中我们将给出一个例子,其中,我们考虑宇航员的航天服的头盔的去噪问题。当然,这一张的主要目标不是针对这具体问题寻求最好的去噪算法;相反,我们试图提供一些声学挑战的深层的分析以及建议解决方法的验证过程。这样的解决方法更加的有效,能够增加读者的知识。尽管在此书中我们将焦点限制在单麦克风去噪中,我们还将在本章中简要的提及多麦克风去噪的问题,尽管绝大多数的多通道去噪技术可以在——麦克风阵列信号处理一书中找到。
1.5 给读者的一些建议
成功的去噪系统要求广泛的知识和经验,比如信号处理理论,统计理论,估计和检测理论,模式识别理论,语音处理理论,通讯理论,语音感知理论等等。对于一个单独的人而言,想要掌握这些方面的所有知识是非常困难的。本书的思想和目的是在信号处理视角提供去噪研究的大量基本主题的深层次的讨论,以至于读者能够对这一问题有较好的理解,而不需要成为一个以上各个方面的一个专家。我们的基本目标是获得去噪的最优估计器,如果需要获得去噪和语音失真的平衡,我们将使用次优滤波器。我们已经深入地观察去噪问题,方法是通过包含实践中我们得到的有用的和重要的结论。
所有符号的数学表示将在其第一次讨论中给予定义。一般而言,(列向量)用黑体小写字母表示,矩阵则用大写粗体表示。
加载中,请稍候......