联合样本输出与特征空间的半监督概念漂移检测法及其应用

引用本文
孙子健, 汤健, 乔俊飞.
联合样本输出与特征空间的半监督概念漂移检测法及其应用. 自动化学报, 2022,
Sun Zi-Jian, Tang Jian, Qiao
Jun-Fei. Semi-supervised concept drift detection method by
combining sample output space and feature space with its
application. Acta Automatica Sinica, 2022,
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200984?viewType=HTML
文章简介
关键词
城市固废焚烧, 概念漂移检测, 半监督机制, 特征空间, 样本空间
摘
城市固废焚烧(Municipal solid waste incineration, MSWI)过程受垃圾成分波动、设备磨损与维修、季节交替变化等因素的影响而存在概念漂移现象, 这导致用于污染物排放浓度的建模数据具有时变性. 为此, 需要识别能够表征概念漂移的新样本对污染物测量模型进行更新, 但现有漂移检测方法难以有效应用于建模样本真值获取困难的工业过程. 针对上述问题, 提出一种联合样本输出与特征空间的半监督概念漂移检测方法. 首先, 采用基于主成分分析(Principal component analysis, PCA)的无监督机制识别特征空间内的概念漂移样本; 然后, 在样本输出空间采用基于时间差分(Temporal-difference, TD)学习的半监督机制对上述概念漂移样本进行伪真值标注后, 再用Page-Hinkley检测法确认能够表征概念漂移的样本; 最后, 采用上述步骤获得的新样本结合历史样本对模型进行更新. 基于合成和真实工业过程数据集的仿真结果表明所提方法具有优于已有方法的性能, 能够在加强模型漂移适应性的同时有效缩减样本标注成本.
引
城市固废(Municipal solid waste, MSW)的全球年增长率随城镇人口增加和居民消费水平提高而不断增加, 我国部分城市甚至陷入“垃圾围城”困境. 该现象直接危害环境卫生和生态平衡, 因此MSW 处理成为亟待解决的全球性问题. 具有无害化、减量化和资源化等特点的MSW焚烧(Municipal solid waste incineration, MSWI)是世界范围内广泛采用的措施, 但该过程的排放尾气中含有氮氧化物、二噁英等难以检测的有害污染物. 目前, MSWI企业主要通过控制焚烧运行参数实现污染物排放浓度的控制. 显然, 实现MSWI过程污染物排放最小化的关键之一是实时、精准地测量这些难测参数的排放浓度. 对此, 软测量模型因具有经济性和快速性等优点而成为当前最为常见的实时测量策略. 但是, 由于工业过程多具有复杂性、随机性和时变性等特征, 这使得基于历史数据构建的软测量模型因不能覆盖新样本所表征的数据分布而导致泛化性能恶化, 导致这一现象的本质原因是概念漂移.
概念漂移可表述为数据分布随时间发生变化, 从软测量模型的视角可理解为样本输出空间与特征空间的映射关系发生了改变. 该现象是由难以预知的工业生产环境改变、物料成分波动和设备磨损与维护等因素引起, 并难以避免地导致模型测量精度显著降低. 例如, MSWI过程中的炉膛温度变化可使烟气污染物生成关系改变, MSW含水率的差异会导致炉内燃烧状态的变化, 这些现象均会引起概念漂移, 进而使得基于历史数据构建的污染物浓度测量模型的精度下降. 因此, 如何采用漂移检测方法有效识别能够表征新概念的漂移样本并将其用于软测量模型的更新, 是提高模型泛化性能需要解决的首要问题.
有监督型漂移检测的代表性算法是漂移检测法(Drift detection method, DDM), 其根据新样本测量性能定义警告与漂移等级. 当测量误差超过警告等级时, 存储新样本; 当超过漂移等级时, 采用存储的新样本及历史样本构建新模型以代替旧模型. 类似地, 文献[12]计算模型在总体样本和最近样本中获得可接受测量误差的概率, 采用Hoeffding不等式判断概率差异后确认是否发生漂移; 文献[13]通过比较模型更新前后输出权重值的变化程度表征漂移; 文献[14-15]分别采用指数加权移动平均和Page-Hinkley检测法确认模型测量精度的变化, 以判断是否发生了概念漂移. 由上可知, 难测参数的测量误差变化能够表征概念漂移对测量模型的直接影响, 该类方法具有计算过程简便高效的优点; 但面向实际工业过程, 上述算法忽视了难测参数真值无法全部获取的实际现状. 例如, 在MSWI过程中, 氮氧化物的排放浓度采用人工采样分析方法时其真值获取周期过长, 采用烟气传感器检测时其易受恶劣工况影响而导致测量失真; 二噁英的排放浓度因其采样与化验分析的复杂性导致其真值标注周期长且成本高昂. 因此, 上述有监督型漂移检测方法难以在实际工业过程中直接使用.
无监督型漂移检测的代表性算法有: 文献[17-19]基于多元统计策略分别采用近似线性依靠(Approximate linear dependence, ALD)条件、主成分分析(Principal component analysis, PCA)和角度优化全局降维算法(Angle optimized global embedding, AOGE)分析样本特征空间的分布变化; 文献[20-21]基于距离度量策略采用马氏距离和领域熵度量特征空间的概念变化; 文献[22-23]基于假设检验策略提出基于重采样和累计区域密度的检测方法. 该类算法的特点是在漂移检测阶段不依赖难测参数真值, 但在模型更新阶段仍需采用标注真值的样本, 因此难以在短期内使得模型具有对漂移的适应能力.
此外, 复杂工业过程中概念漂移的影响会同时体现为模型测量误差和样本特征空间的综合变化. 因此, 仅基于样本特征空间的分布差异难以有效表征概念漂移现象. 针对上述问题, 面向分类任务, 文献[25]提出半监督漂移学习框架, 通过监视分类器置信度变化初步筛选漂移样本, 再根据置信度得分估计漂移样本的伪标签, 最后进行模型更新. 类似地, 文献[26]提出基于密度估计的半监督漂移检测, 在少量有标注样本前提下采用增量估计器标注其余样本的标签而实现漂移检测. 但目前为止, 面向复杂工业过程回归建模领域的半监督概念漂移检测方法鲜有报道. 由于分类任务常具有明确且有限的类别标签用于划分样本概念, 其算法设计方式不适用于连续型变量, 因此上述方法难以直接用于回归建模领域.
综上, 本文充分考虑MSWI过程中的概念漂移现象和难测参数真值无法及时获取的问题, 提出联合样本输出与特征空间的半监督漂移检测方法. 首先, 采用高斯过程回归(Gaussian process regression, GPR)依据历史样本构建离线测量模型; 然后, 采用基于PCA的无监督机制检测特征空间漂移的样本并将其记录在待标注缓存窗口; 接着, 在样本输出空间中采用基于时间差分(Temporal-difference, TD)学习的半监督机制对上述缓存窗口内的样本进行伪真值标注, 并采用Page-Hinkley检测法确认能够表征概念漂移的新样本; 最后, 采用新样本与历史样本更新软测量模型.

图

图
作者简介
孙子健
北京工业大学信息学部硕士研究生. 主要研究方向为概念漂移检测, 城市固废焚烧过程难测参数软测量.
E-mail: sunzj@emails.bjut.edu.cn
汤
北京工业大学信息学部教授. 主要研究方向为小样本数据建模, 城市固废处理过程智能控制.
E-mail: freeflytang@bjut.edu.cn
乔俊飞
北京工业大学信息学部教授. 主要研究方向为污水处理过程智能控制, 神经网络结构设计与优化. 本文通信作者.
E-mail: junfeiq@bjut.edu.cn
相关文章
[1]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210843?viewType=HTML
[2]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190254?viewType=HTML
[3]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190005?viewType=HTML
[4]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150206?viewType=HTML
[5]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150511?viewType=HTML
[6]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150344?viewType=HTML
[7]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2015.c140896?viewType=HTML
[8]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2015.c140399?viewType=HTML
[9]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2015.c140644?viewType=HTML
[10]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.00135?viewType=HTML
[11]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.00236?viewType=HTML
[12]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2013.00875?viewType=HTML
[13]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2012.01145?viewType=HTML
[14]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2010.00798?viewType=HTML
[15]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2009.01568?viewType=HTML
[16]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2009.01513?viewType=HTML
[17]
http://www.aas.net.cn/cn/article/id/15999?viewType=HTML
[18]
http://www.aas.net.cn/cn/article/id/16128?viewType=HTML
[19]
http://www.aas.net.cn/cn/article/id/14459?viewType=HTML
[20]
http://www.aas.net.cn/cn/article/id/14614?viewType=HTML