面向Kullback-Leibler散度不确定集的正则化线性判别分析

引用本文
梁志贞, 张磊.
面向Kullback-Leibler散度不确定集的正则化线性判别分析. 自动化学报,
2022,
Liang Zhi-Zhen, Zhang Lei.
Regularized linear discriminant analysis based on uncertainty sets
from Kullback-Leibler divergence. Acta Automatica Sinica,
2022,
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210434?viewType=HTML
文章简介
关键词
判别分析, KL散度, 不确定集, 正则化, 数据分类
摘
线性判别分析是一种统计学习方法. 针对线性判别分析的小样本奇异性问题和对污染样本敏感性问题, 目前许多线性判别分析的改进算法已被提出. 本文提出了基于Kullback-Leibler (KL)散度不确定集的判别分析方法. 提出的方法不仅利用了Ls范数定义类间距离和Lr范数定义类内距离, 而且对类内样本和各类中心的信息进行基于KL散度不确定集的概率建模. 首先通过优先考虑不利区分的样本提出了一种正则化对抗判别分析模型并利用广义Dinkelbach算法求解此模型. 这种算法的一个优点是在适当的条件下优化子问题不需要取得精确解. 投影(次)梯度法被用来求解优化子问题. 此外, 也提出了正则化乐观判别分析并采用交替优化技术求解广义Dinkelbach算法的优化子问题. 许多数据集上的实验表明了本文的模型优于现有的一些模型, 特别是在污染的数据集上, 正则化乐观判别分析由于优先考虑了类中心附近的样本点, 从而表现出良好的性能.
引
如今利用现代设备采集高维数据变得方便和容易, 但是获得的高维数据可能包含不相关和冗余的信息. 这不仅增加了学习模型的计算量和存储量, 而且可能导致学习模型的性能下降. 为了解决这些问题, 线性降维通常用于从数据中提取重要和有用的信息. 线性降维的目的是通过优化一些准则函数对原始特征空间进行适当的线性变换. 主成分分析(Principal component analysis, PCA)和线性判别分析(Linear discriminant analysis, LDA)是两种流行的线性降维方法. 由于PCA和LDA的简单性和有效性, 它们已经被广泛应用于许多领域, 如人脸识别、手写体字符识别和缺陷诊断等.
当样本的类别信息可用时, 通常情况下LDA在提取数据的鉴别特征方面比PCA更有效. 线性判别分析的目标是在变换空间中通过最大化类间距离和最小化类内距离来寻找投影矩阵. 从概率的观点来看, 假设每类样本服从高斯分布且具有不同的类中心以及相同的协方差, 则从Bayes最优准则可推导出LDA.
为了改善线性判别分析的特征提取性能, 各种LDA的改进算法已经被提出. 使用最优向量替换各类中心能提高LDA的类信息鉴别能力. 分数阶的LDA通过在一系列分数阶中引入加权函数来改善LDA, 但这增加了获得投影向量的代价. 与Bayes错误率相关的近似成对精度准则在原空间计算各类的权重, 从而改善LDA的性能. 几何平均, 调和平均以及加权调和平均被用来定义判别分析的准则函数. 最不利情况下的线性判别分析考虑了最近的两个类中心和具有最大方差的类来寻找投影方向. 基于最大−最小距离的目标函数探索了最近的数据对的性质来取得投影方向. Wasserstein判别分析利用正则化Wasserstein距离获取类之间的全局和局部信息并优化目标函数取得最佳投影方向.
线性判别分析存在小样本的奇异性以及非线性数据特征提取等问题. 为了克服LDA的小样本奇异性问题, 典型的方法包括PCA+LDA, 正则化LDA, 伪逆LDA 以及张量判别分析等. 为了有效地处理非线性数据, 各种线性判别分析已被拓宽到基于核函数的判别分析. 当训练集随着新数据的加入而变化时或处理的数据量大时, 各种增量学习或在线学习方式被用来获得鉴别分析的投影方向. 文献[24]提出了两种形式的增量LDA : 序列增量LDA和块增量LDA, 它们能有效地获取大数据流的特征空间.
数据在采集或传输过程中可能受到污染, 这使得处理的数据包含噪声或离群点.
但经典线性判别分析对噪声数据具有敏感性, 即获得的投影方向偏离真正的投影方向. 为了降低LDA对噪声数据的敏感性,
许多工作致力于用鲁棒的目标函数替换LDA的原有目标函数. 已有的诸多研究发现,
基于L_1范数的目标函数比基于L_2范数的目标函数在抑制异常点或噪声方面更有效.
因此基于L_1范数的判别分析方法近年来备受关注.
在大多数判别分析中, 通常假定类内各个样本以相等的概率(均匀分布)取得的, 但是位于类中心附近的样本一般远远多于位于类边界附近的样本. 为了增加类内样本采样的多样性, 可令类内样本的采样概率在均匀分布的概率附近变化, 这种变化有利于区分类中心附近的样本或类边界附近的样本. 不确定优化中的不确定集能描述概率分布的变化范围. 因此本文借助KL散度定义的不确定集对类内样本信息进行概率建模. 此外, 为了更好描述各类中心的信息, 本文也利用KL散度定义的不确定集对其进行概率建模. 基于此, 本文提出了基于KL散度不确定集的线性判别分析方法, 从而进一步改善已有线性判别分析方法. 与以往的方法不同, 本文不仅考虑了一般范数的目标函数, 而且利用不确定集对训练样本信息进行了刻画. 本文采用的不确定集为围绕均匀分布的KL散度球且约束中的不确定集被转化为目标函数的正则化项. 本文的主要贡献表现为:
1) 提出了正则化对抗LDA和正则化乐观LDA. 正则化对抗LDA优先考虑了难以区分的样本, 而正则化乐观LDA优化考虑了易于区分的样本.
2) 采用了广义Dinkelbach算法求解正则化对抗LDA或正则化乐观LDA. 对正则化对抗LDA运用投影梯度法求解优化子问题, 而对正则化乐观LDA运用交替优化求解优化子问题.
3) 在数据集上表明了当数据没有被污染时, 两种判别分析模型取得可竞争的性能, 但在污染数据的情况下, 正则化乐观LDA取得更好的性能. 这也从另一方面说明了本文提供两种模型的目的, 即如果在某些验证数据集上正则化乐观LDA的最好性能明显优于正则化对抗LDA的最好性能, 那说明训练集包含离群点. 因此通过检查正则化对抗LDA和正则化乐观LDA的性能可判断训练集是否包含离群点.

图

图

图
作者简介
梁志贞
中国矿业大学副教授. 2005年获得上海交通大学模式识别与智能系统专业博士学位. 主要研究方向为模式识别, 生物特征识别. 本文通信作者.
E-mail: liang@cumt.edu.cn
张
中国矿业大学副教授. 主要研究方向为最优化方法和数据挖掘.
E-mail: zhanglei@cumt.edu.cn
相关文章
[1]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180743?viewType=HTML
[2]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190602?viewType=HTML
[3]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200322?viewType=HTML
[4]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160383?viewType=HTML
[5]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c160395?viewType=HTML
[6]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c160818?viewType=HTML
[7]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.01208?viewType=HTML
[8]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.01116?viewType=HTML
[9]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.02134?viewType=HTML
[10]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.02428?viewType=HTML
[11]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2012.01485?viewType=HTML
[12]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2012.00076?viewType=HTML
[13]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2012.01950?viewType=HTML
[14]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.00693?viewType=HTML
[15]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.00252?viewType=HTML
[16]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2009.01513?viewType=HTML
[17]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2008.00400?viewType=HTML
[18]
http://www.aas.net.cn/cn/article/id/15811?viewType=HTML
[19]
http://www.aas.net.cn/cn/article/id/16345?viewType=HTML
[20]
http://www.aas.net.cn/cn/article/id/15567?viewType=HTML
[21]
http://www.aas.net.cn/cn/article/id/17127?viewType=HTML