面向卷积混叠环境下的盲源分离新方法_Automation_2011

http://blog.sina.com.cn/u/1304706164

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

面向卷积混叠环境下的盲源分离新方法

(2023-06-14 14:41:54)

引用本文

解元, 邹涛, 孙为军, 谢胜利. 面向卷积混叠环境下的盲源分离新方法. 自动化学报, 2023, 49(5): 1062−1072 doi: 10.16383/j.aas.c211207

Xie Yuan, Zou Tao, Sun Wei-Jun, Xie Sheng-Li. Novel blind source separation method for convolutive mixed environment. Acta Automatica Sinica, 2023, 49(5): 1062−1072 doi: 10.16383/j.aas.c211207

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c211207

关键词

盲源分离，卷积混叠，独立分量分析，非负矩阵分解

摘要

卷积混叠环境下的盲源分离(Blind source separation, BSS)是一个极具挑战性和实际意义的问题. 本文在独立分量分析框架下, 建立非负矩阵分解(Nonnegative matrix factorization, NMF)模型, 设计新的优化目标函数, 通过严格的数学理论推导, 得到新的模型参数更新规则; 并对解混叠矩阵进行标准化处理, 避免幅度歧义性问题; 在源信号的重构阶段, 通过实时更新非负矩阵分解模型参数, 避免源信号的排序歧义性问题. 实验结果验证了所提算法在分离中英文语音混叠信号、音乐混叠信号时的有效性和优越性.

文章导读

盲源分离(Blind source separation, BSS)是指在对混叠信道信息未知的情况下, 仅根据接收的混叠信号分离出源信号[1-2]. 盲源分离起源于经典的“鸡尾酒会问题”[3], 即在酒会派对上, 多人同时说话, 利用麦克风接收混叠的语音信号, 通过设计盲源分离方法可以把接收到的混叠信号独立地分离出来. 由于盲源分离方法只需要根据接收信号就可以分离出源信号, 因此, 具有独特的分离特性. 目前, 已经应用于多个领域, 例如: 音频信号处理[4-5]、生物信号处理[6-8]、图形信号处理[9-10]、故障盲检测[11-12]等领域. 在音频信号处理中, 由于接收的混叠语音信号伴随着回响以及噪声等一系列不确定因素, 给源信号的分离带来了很大的困难.

盲分离是信号处理领域中一种高效的信号分离方法, 传统的盲分离方法是基于线性的混叠模型而设计的[13-15]. 然而, 线性混叠模型并不能很精确地模拟现实问题, 进而发展了卷积混叠模型, 由于卷积模型可以更好地描述实际问题, 所以目前在卷积混叠模型下研发盲源分离算法成为了主流. 主要分为三类: 超定卷积混叠、正定卷积混叠、欠定卷积混叠. 即, 当源信号数目小于传感器数目时是超定混叠; 当源信号数目等于传感器数目时是正定混叠; 当源信号数目大于传感器数目时是欠定混叠. 针对这三种混叠, 也有相应的论文. 例如, 基于奇异值分解的超定混叠盲源分离[16], 考虑的是不含噪声的线性混叠模型, 利用互信息与微分熵的关系, 提出基于独立分量分析的代价函数, 推导了一般梯度学习算法. 基于时频掩蔽技术的正定混叠盲源分离算法[17], 考虑的是不含噪声的卷积混叠模型, 其代价函数基于最大化对数似然估计. 基于超平面法矢量的欠定盲源分离算法[18], 以及基于平行因子分解的欠定混叠盲源分离算法[19]等. 然而, 在盲解卷问题中, 存在两个主要问题: 一是幅度歧义性问题; 二是排序歧义性问题. 幅度歧义性指的是在每个时频点上所估计的源信号的增益大小不确定; 排序歧义性指的是在每个时频点上所估计的源信号顺序发生混乱, 难于与源信号顺序保持一致. 针对幅度歧义性问题, 盲源分离的最小失真原理[20]是比较成熟的方法, 而且幅度歧义性问题不如排序歧义性问题那么严重. 针对排序歧义性问题, 比较流行的解决方法是基于方向到达估计排序算法和频率间相关排序算法[21-22]. 此外, 还有一种基于Tucker张量分解方法, 利用耦合频率消除卷积盲源分离中的排序歧义性[23]. 但是, 到目前为止, 所提出的算法只是在一定程度上缓解了排序歧义性所带来的盲源分离性能问题, 仍然没有有效手段可以彻底解决排序歧义性问题.

如何设计更好的优化算法提高盲分离性能一直是盲源分离研究的关键. 时频域方法是比较流行的方法[24-26], 它利用短时傅里叶变换把时域上的卷积混叠信号转换到频域上进行分离. 然后, 把分离后的源信号利用逆短时傅里叶变换转换到时域上, 从而实现分离. 常用的稀疏分析方法在盲源分离中发挥重要作用[27-28], 利用信号在时频域上的稀疏性, 假设在每个时频点上有且只有一个源成分是活跃的, 设计相应的稀疏盲源分离算法重构源信号. 目前, L1/2范数正则化在稀疏性中扮演重要角色[29-30], 它可以平衡L0范数与L1范数之间的稀疏性. 同时, 为了获得更加稀疏的表示, Lp(0≤p<1)范数正则化通过调整参数p值来近似真正的稀疏补偿项[31-32], 从而提高源信号的分离性能. 然而, 参数p的值不是固定的, 需要根据具体数据集进行适当的调参来获得最优解.

非负矩阵分解(Nonnegative matrix factorization, NMF)是当前流行的一种分离方法[33-35], 文献[36]将独立向量分析与非负矩阵分解相结合, 设计了一种正定卷积混叠盲分离算法. 文献[37-38]将期望最大化与非负矩阵分解相结合, 设计了欠定卷积混叠信号的盲分离. 文献[39]设计了一种快速多通道非负矩阵分解盲分离方法. 上述方法主要是基于低秩空间协方差模型设计的. 而基于满秩空间协方差模型的方法在解决盲分离问题中也发挥了重要作用[40-41]. 另外, 张量分解理论[42]作为非负矩阵分解的拓展, 已应用于盲分离问题中[43-44]. 然而, 该类方法由于计算复杂度较高, 导致计算速度较慢.

为了突破传统盲分离算法的局限性, 本文设计一种新的面向卷积混叠环境下的盲源分离算法. 通过设计带权重的非负矩阵分解模型, 基于Itakura-Saito散度, 结合了独立分量分析和非负矩阵分解, 构建新的代价函数. 通过严格的数学理论推导和优化求解, 获得新的模型参数更新规则, 在每次迭代更新过程中对解混叠矩阵进行标准化处理, 可以避免幅度歧义性问题; 在源信号的重构阶段, 通过实时更新非负矩阵分解模型参数, 并将信号源的空间特性在所有频点上联合优化, 从而在每个时频点上更好地重构源信号, 避免了排序歧义性问题. 同时, 假设源信号在每个时频点上满足独立复高斯分布, 在独立分量分析框架下, 源信号的协方差矩阵为对角化矩阵, 对其建立带权重的非负矩阵分解新模型, 利用梯度下降法得到非负矩阵分解模型参数更新规则, 降低了计算复杂度, 提高了算法的计算速度.

本文的创新点概括如下:

1) 设计一个新的优化目标函数, 推导出新的模型参数更新规则, 并给出严格的数学理论证明, 进而提出一种高效的卷积盲源分离算法.

2) 在独立分量分析框架下, 建立非负矩阵分解新模型, 对解混叠矩阵进行实时更新学习, 避免了排序歧义性问题, 提高了盲源分离性能, 同时降低了计算复杂度.

本文实验数据来自于公开的音频信号公共数据集, 实验测试了中文语音混叠信号、英文语音混叠信号、以及音乐混叠信号在不同混响下的盲源分离性能, 通过对比几种目前比较流行的盲源分离算法, 验证了本文所提算法的有效性以及优越性.

本文的结构安排如下: 第1节主要介绍卷积混叠系统模型; 第2节是本文的核心部分, 详细介绍了所提算法的具体细节, 并给出严格的数学理论推导, 设计了新的盲源分离算法; 第3节给出详细的仿真实验以及对实验结果进行分析; 第4节对本文做总结, 并对未来工作进行展望.

图 1 中文语音混叠信号盲源分离SDR性能对比

图 2 中文语音混叠信号盲源分离SIR性能对比

图 3 英文语音混叠信号盲源分离SDR性能对比

本文主要针对卷积混叠音频信号盲源分离问题, 提出一种高效的盲源分离新算法. 通过实时更新解混叠矩阵和非负矩阵分解模型参数, 避免时频域上出现的排序歧义性问题, 提高了盲源分离性能. 大量的音频信号实验结果证明了该算法具有良好的分离性能, 优于目前流行的盲分离算法的分离性能. 特别是在低混响和低噪声环境下, 该算法具有明显的盲分离优势.

另外, 本文考虑的是时不变卷积混叠系统, 要求源信号的位置是固定不变的, 如会议室中的语音信号、录音棚中的音乐信号等应用场景. 而在实际复杂环境中, 源信号的位置常常是移动的, 同时伴随高混响、高噪声等不确定因素, 针对这种时变的卷积混叠系统, 在未来的科研工作中, 需要寻找更好的解决方案, 用新眼光新思路看问题, 设计鲁棒性、自适应性更好的盲源分离方法.

作者简介

解元

广州大学机械与电气工程学院讲师. 主要研究方向为盲信号分离, 信号处理和机器学习. E-mail: yuanxiemath@hotmail.com

邹涛

广州大学机械与电气工程学院教授. 主要研究方向为工业过程建模与仿真, 模型预测控制, 先进过程控制和实时优化技术研究与应用. 本文通信作者. E-mail: tzou@gzhu.edu.cn

孙为军

广东省物联网信息技术重点实验室、智能检测与制造物联教育部重点实验室副教授. 主要研究方向为模式识别, 机器学习. E-mail: gdutswj@163.com

谢胜利

基于物联网技术的离散制造智能化学科创新引智基地、粤港澳离散制造智能化联合实验室教授. 主要研究方向为无线网络, 自动控制和盲信号处理. E-mail: shlxie@gdut.edu.cn

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：基于区块链的策略隐藏大数据访问控制方法

后一篇：一种规模化混杂生产线缓冲区容量优化分配技术

新浪BLOG意见反馈留言板　欢迎批评指正