基于RefineNet的端到端语音增强方法

引用本文
蓝天, 彭川, 李森, 钱宇欣, 陈聪, 刘峤.
基于RefineNet的端到端语音增强方法. 自动化学报, 2022,
Lan Tian, Peng Chuan, Li Sen, Qian
Yu-Xin, Chen Cong, Liu Qiao. RefineNet-based end-to-end speech
enhancement. Acta Automatica Sinica, 2022,
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190433?viewType=HTML
文章简介
关键词
语音增强, 端到端, RefineNet, 多目标联合优化, 深度神经网络
摘
为提高神经网络对语音信号时域波形的直接处理能力, 提出了一种基于RefineNet的端到端语音增强方法. 本文构建了一个时频分析神经网络, 模拟语音信号处理中的短时傅里叶变换, 利用RefineNet网络学习含噪语音到纯净语音的特征映射. 在模型训练阶段, 用多目标联合优化的训练策略将语音增强的评价指标短时客观可懂度(Short-time objective intelligibility, STOI)与信源失真比(Source to distortion ratio, SDR)融入到训练的损失函数. 在与具有代表性的传统方法和端到端的深度学习方法的对比实验中, 本文提出的算法在客观评价指标上均取得了最好的增强效果, 并且在未知噪声和低信噪比条件下表现出更好的抗噪性.
引
语音增强的主要目标是从含噪语音中提取原始纯净语音信号, 通过抑制或分离噪声来提升语音感知质量与可懂度, 在语音信号通信、助听器和自动语音识别等领域有着广泛的应用. 经过几十年的发展, 众多语音增强算法相继被提出, 经典的语音增强技术主要包括谱减法、维纳滤波法、基于统计模型的方法以及基于子空间的方法等, 这些方法往往基于噪声平稳或缓变的假设, 在高度非平稳的噪声情况下增强效果会急剧恶化. 深度学习[3]的兴起以及在声学建模领域的成功应用, 为解决复杂环境下的语音增强提供了思路. 根据网络学习的目标不同, 基于神经网络的语音增强主要分为基于时频掩蔽的方法与基于特征映射的方法. 基于时频掩蔽的方法将纯净语音与噪声之间的相互关系作为学习目标, 将得到的时频掩蔽估计作用于含噪语音上, 并经由逆变换技术合成增强语音的时域波形. Wang等将深度神经网络(Deep neural networks, DNN)引入语音分离与降噪领域, 通过前馈DNN估计理想二值掩蔽(Ideal binary mask, IBM); 随后, Narayanan等提出在梅尔谱域估计理想浮值掩蔽(Ideal ratio mask, IRM), 在一定程度上提高了语音识别的鲁棒性; Williamson等也提出复数理想浮值掩蔽(Complex ideal ratio mask, cIRM), 并使用DNN同时估计cIRM的实部和虚部, 显著提高了语音的可懂度. 基于特征映射的方法利用神经网络学习含噪语音和纯净语音之间的复杂映射关系. Xu等把深层神经网络视为一个回归模型, 使用带受限玻尔兹曼机(Restricted Boltzmann machine, RBM)预训练的DNN将含噪语音的对数功率谱映射到纯净语音的对数功率谱上; Park等提出冗余卷积编解码网络, 通过删去池化层、加入跳跃连接的方式优化训练过程, 将卷积神经网络(Convolutional neural network, CNN)应用于频谱映射. 这两类方法通常需要将时域波形变换到时频域处理信号的幅度谱或功率谱, 往往会忽略掉语音信号中的相位信息.
基于端到端的语音增强方法不依赖于频域表示, 可以有效地利用时域信号的相位信息, 避免了信号在时域和时频域之间来回切换, 简化处理流程. Qian等考虑到WaveNet对语音波形的强大建模能力, 提出将语音先验分布引入到WaveNet框架进行语音增强; Rethage等也在WaveNet的基础上开展语音增强研究, 通过非因果的(Non-causal)扩张卷积来预测目标, 在主观评价指标上取得了比维纳滤波更好的效果. Pascual等将生成对抗网络 (Generative adversarial nets, GAN)引入语音增强领域并提出SEGAN (Speech enhancement generative adversarial network), 并用其对时域波形信号直接处理, 取得了一定的增强效果, 但是在客观评价指标语音质量感知评价(Perceptual evaluation of speech quality, PESQ)上略低于维纳滤波. Fu等提出全卷积神经网络并将其作用于整句语音波形信号, 提升了语音增强的性能. 这些基于端到端的方法都是直接将一维时域波形映射到目标语音, 然而时域波形信号本身并不能表现出明显的特征结构信息, 直接对时域信号建模比较困难, 而且低信噪比环境下信号更复杂, 建模难度会进一步提高. 有学者考虑将神经网络作为前端短时傅立叶变换(Short-time Fourier transform, STFT)替代方案, 我们在其基础上修改扩展, 提出了一个时频分析网络来模拟STFT变换过程的基函数, 将一维时域信息映射到一个类似于时频表示的高维空间中以获取更多的信息; 相比于常见的神经网络方法中使用时频域幅度谱或功率谱值的方式, 时频分析网络能更充分地利用输入信号中的相位信息.
语音和噪声信号在时域相邻帧以及频域相邻频带间具有很强的相关性, 这种时频域的局部相关性与图像中的相邻像素间的相关性非常相似. 由于在语音增强领域使用卷积神经网络可以获得与深度神经网络和循环神经网络(Recurrent neural network, RNN)相当或更好的增强效果, 为进一步提高语音增强的性能, 本文考虑使用卷积神经网络中的一种重要网络 — RefineNet来进行端到端的语音增强. 它是一个通用的多路径优化网络, 通过显式利用下采样过程中的所有可用信息, 并使用较长范围的残差连接来实现高分辨率预测. 通过这种方式, 可以利用前期卷积的细粒度特性捕获更深层的高级特征; RefineNet的各个组件使用了带有Identity mappings的残差连接, 这样梯度就可以通过不同跨度的残差连接直接传播, 从而实现高效的端到端训练.
在语音增强领域的神经网络训练过程中, 通常将均方误差(Mean square error, MSE)作为损失函数, 而在客观评价中往往使用PESQ或STOI等评价指标, 这种损失函数与评价指标之间的差异性并不能保证训练后的模型在应用中能够提供最优的性能; Fu等和Zhao等将STOI评价指标融入到了损失函数中, 一定程度上提高了语音增强性能. 受此启发, 我们提出将STOI和SDR同时融入到损失函数中, 并且采用多目标联合优化策略, 利用神经网络根据不同目标之间的共性和差异性建模.
本文提出了基于RefineNet的端到端语音增强模型(RefineNet-based speech enhancement, RNSE), 首先利用时频分析网络模仿STFT, 学习时域波形在模拟的二维时频空间表示; 然后利用RefineNet整合不同大小特征图的能力, 对不同粒度的模拟时频空间特征进行综合分析; 最后通过时频分析网络逆处理得到增强语音的估计. 在训练阶段, 我们将STOI与SDR评价指标融入到损失函数中进行联合优化, 从而得到更好的增强效果.

图

图
作者简介
蓝
电子科技大学信息与软件工程学院副教授. 2008年获得电子科技大学计算机应用技术专业博士学位. 主要研究方向为语音识别, 语音增强, 自然语言处理, 医学图像分析.
E-mail: lantian1029@uestc.edu.cn
彭
电子科技大学信息与软件工程学院硕士研究生. 主要研究方向自然语言处理, 语音增强与语音识别.
E-mail: pengchuan@std.uestc.edu.cn
李
电子科技大学信息与软件工程学院硕士研究生. 主要研究方向自然语言处理, 语音增强.
E-mail: sen@std.uestc.edu.cn
钱宇欣
电子科技大学信息与软件工程学院硕士研究生. 主要研究方向为语音增强, 语音分离.
E-mail: yxqian@std.uestc.edu.cn
陈
电子科技大学信息与软件工程学院硕士研究生. 主要研究方向为语音增强, 语音识别.
E-mail: chencong@std.uestc.edu.cn
刘
电子科技大学信息与软件工程学院教授. 2010年获得电子科技大学计算机应用技术专业博士学位. 主要研究方向为自然语言处理, 机器学习, 数据挖掘. 本文通信作者.
E-mail: qliu@uestc.edu.cn
相关文章
[1]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150734?viewType=HTML
[2]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200317?viewType=HTML
[3]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200286?viewType=HTML
[4]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200551?viewType=HTML
[5]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200045?viewType=HTML
[6]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180275?viewType=HTML
[7]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200168?viewType=HTML
[8]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180554?viewType=HTML
[9]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170001?viewType=HTML
[10]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160629?viewType=HTML
[11]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c150719?viewType=HTML
[12]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150726?viewType=HTML
[13]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2010.00865?viewType=HTML
[14]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2010.00074?viewType=HTML
[15]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2009.01240?viewType=HTML
[16]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2009.01481?viewType=HTML
[17]
http://www.aas.net.cn/cn/article/doi/10.1360/aas-007-0652?viewType=HTML
[18]
http://www.aas.net.cn/cn/article/id/15650?viewType=HTML
[19]
http://www.aas.net.cn/cn/article/id/13963?viewType=HTML
[20]
http://www.aas.net.cn/cn/article/id/17555?viewType=HTML