加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

联合样本输出与特征空间的半监督概念漂移检测法及其应用

(2022-05-05 16:01:20)

引用本文

 

孙子健, 汤健, 乔俊飞. 联合样本输出与特征空间的半监督概念漂移检测法及其应用. 自动化学报, 2022, 48(5): 1259−1272 doi: 10.16383/j.aas.c200984

Sun Zi-Jian, Tang Jian, Qiao Jun-Fei. Semi-supervised concept drift detection method by combining sample output space and feature space with its application. Acta Automatica Sinica, 2022, 48(5): 1259−1272 doi: 10.16383/j.aas.c200984    

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200984?viewType=HTML


文章简介


关键词


城市固废焚烧, 概念漂移检测, 半监督机制, 特征空间, 样本空间


摘   


城市固废焚烧(Municipal solid waste incineration, MSWI)过程受垃圾成分波动、设备磨损与维修、季节交替变化等因素的影响而存在概念漂移现象, 这导致用于污染物排放浓度的建模数据具有时变性. 为此, 需要识别能够表征概念漂移的新样本对污染物测量模型进行更新, 但现有漂移检测方法难以有效应用于建模样本真值获取困难的工业过程. 针对上述问题, 提出一种联合样本输出与特征空间的半监督概念漂移检测方法. 首先, 采用基于主成分分析(Principal component analysis, PCA)的无监督机制识别特征空间内的概念漂移样本; 然后, 在样本输出空间采用基于时间差分(Temporal-difference, TD)学习的半监督机制对上述概念漂移样本进行伪真值标注后, 再用Page-Hinkley检测法确认能够表征概念漂移的样本; 最后, 采用上述步骤获得的新样本结合历史样本对模型进行更新. 基于合成和真实工业过程数据集的仿真结果表明所提方法具有优于已有方法的性能, 能够在加强模型漂移适应性的同时有效缩减样本标注成本.


引   


城市固废(Municipal solid waste, MSW)的全球年增长率随城镇人口增加和居民消费水平提高而不断增加, 我国部分城市甚至陷入“垃圾围城”困境. 该现象直接危害环境卫生和生态平衡, 因此MSW 处理成为亟待解决的全球性问题. 具有无害化、减量化和资源化等特点的MSW焚烧(Municipal solid waste incineration, MSWI)是世界范围内广泛采用的措施, 但该过程的排放尾气中含有氮氧化物、二噁英等难以检测的有害污染物. 目前, MSWI企业主要通过控制焚烧运行参数实现污染物排放浓度的控制. 显然, 实现MSWI过程污染物排放最小化的关键之一是实时、精准地测量这些难测参数的排放浓度. 对此, 软测量模型因具有经济性和快速性等优点而成为当前最为常见的实时测量策略. 但是, 由于工业过程多具有复杂性、随机性和时变性等特征, 这使得基于历史数据构建的软测量模型因不能覆盖新样本所表征的数据分布而导致泛化性能恶化, 导致这一现象的本质原因是概念漂移.


概念漂移可表述为数据分布随时间发生变化, 从软测量模型的视角可理解为样本输出空间与特征空间的映射关系发生了改变. 该现象是由难以预知的工业生产环境改变、物料成分波动和设备磨损与维护等因素引起, 并难以避免地导致模型测量精度显著降低. 例如, MSWI过程中的炉膛温度变化可使烟气污染物生成关系改变, MSW含水率的差异会导致炉内燃烧状态的变化, 这些现象均会引起概念漂移, 进而使得基于历史数据构建的污染物浓度测量模型的精度下降. 因此, 如何采用漂移检测方法有效识别能够表征新概念的漂移样本并将其用于软测量模型的更新, 是提高模型泛化性能需要解决的首要问题.


有监督型漂移检测的代表性算法是漂移检测法(Drift detection method, DDM), 其根据新样本测量性能定义警告与漂移等级. 当测量误差超过警告等级时, 存储新样本; 当超过漂移等级时, 采用存储的新样本及历史样本构建新模型以代替旧模型. 类似地, 文献[12]计算模型在总体样本和最近样本中获得可接受测量误差的概率, 采用Hoeffding不等式判断概率差异后确认是否发生漂移; 文献[13]通过比较模型更新前后输出权重值的变化程度表征漂移; 文献[14-15]分别采用指数加权移动平均和Page-Hinkley检测法确认模型测量精度的变化, 以判断是否发生了概念漂移. 由上可知, 难测参数的测量误差变化能够表征概念漂移对测量模型的直接影响, 该类方法具有计算过程简便高效的优点; 但面向实际工业过程, 上述算法忽视了难测参数真值无法全部获取的实际现状. 例如, 在MSWI过程中, 氮氧化物的排放浓度采用人工采样分析方法时其真值获取周期过长, 采用烟气传感器检测时其易受恶劣工况影响而导致测量失真; 二噁英的排放浓度因其采样与化验分析的复杂性导致其真值标注周期长且成本高昂. 因此, 上述有监督型漂移检测方法难以在实际工业过程中直接使用.


无监督型漂移检测的代表性算法有: 文献[17-19]基于多元统计策略分别采用近似线性依靠(Approximate linear dependence, ALD)条件、主成分分析(Principal component analysis, PCA)和角度优化全局降维算法(Angle optimized global embedding, AOGE)分析样本特征空间的分布变化; 文献[20-21]基于距离度量策略采用马氏距离和领域熵度量特征空间的概念变化; 文献[22-23]基于假设检验策略提出基于重采样和累计区域密度的检测方法. 该类算法的特点是在漂移检测阶段不依赖难测参数真值, 但在模型更新阶段仍需采用标注真值的样本, 因此难以在短期内使得模型具有对漂移的适应能力.


此外, 复杂工业过程中概念漂移的影响会同时体现为模型测量误差和样本特征空间的综合变化. 因此, 仅基于样本特征空间的分布差异难以有效表征概念漂移现象. 针对上述问题, 面向分类任务, 文献[25]提出半监督漂移学习框架, 通过监视分类器置信度变化初步筛选漂移样本, 再根据置信度得分估计漂移样本的伪标签, 最后进行模型更新. 类似地, 文献[26]提出基于密度估计的半监督漂移检测, 在少量有标注样本前提下采用增量估计器标注其余样本的标签而实现漂移检测. 但目前为止, 面向复杂工业过程回归建模领域的半监督概念漂移检测方法鲜有报道. 由于分类任务常具有明确且有限的类别标签用于划分样本概念, 其算法设计方式不适用于连续型变量, 因此上述方法难以直接用于回归建模领域.


综上, 本文充分考虑MSWI过程中的概念漂移现象和难测参数真值无法及时获取的问题, 提出联合样本输出与特征空间的半监督漂移检测方法. 首先, 采用高斯过程回归(Gaussian process regression, GPR)依据历史样本构建离线测量模型; 然后, 采用基于PCA的无监督机制检测特征空间漂移的样本并将其记录在待标注缓存窗口; 接着, 在样本输出空间中采用基于时间差分(Temporal-difference, TD)学习的半监督机制对上述缓存窗口内的样本进行伪真值标注, 并采用Page-Hinkley检测法确认能够表征概念漂移的新样本; 最后, 采用新样本与历史样本更新软测量模型.


联合样本输出与特征空间的半监督概念漂移检测法及其应用
图  MSWI工艺流程图


联合样本输出与特征空间的半监督概念漂移检测法及其应用
图  本文算法策略


作者简介


孙子健

北京工业大学信息学部硕士研究生. 主要研究方向为概念漂移检测, 城市固废焚烧过程难测参数软测量.

E-mail: sunzj@emails.bjut.edu.cn


汤   

北京工业大学信息学部教授. 主要研究方向为小样本数据建模, 城市固废处理过程智能控制.

E-mail: freeflytang@bjut.edu.cn


乔俊飞

北京工业大学信息学部教授. 主要研究方向为污水处理过程智能控制, 神经网络结构设计与优化. 本文通信作者.

E-mail: junfeiq@bjut.edu.cn


相关文章


[1]  郭海涛, 汤健, 丁海旭, 乔俊飞. 基于混合数据增强的MSWI过程燃烧状态识别. 自动化学报. doi: 10.16383/j.aas.c210843

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210843?viewType=HTML


[2]  汤健, 乔俊飞, 郭子豪. 基于潜在特征选择性集成建模的二噁英排放浓度软测量. 自动化学报, 2022, 48(1): 223-238. doi: 10.16383/j.aas.c190254

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190254?viewType=HTML


[3]  乔俊飞, 郭子豪, 汤健. 面向城市固废焚烧过程的二噁英排放浓度检测方法综述. 自动化学报, 2020, 46(6): 1063-1089. doi: 10.16383/j.aas.c190005

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190005?viewType=HTML


[4]  许允喜, 陈方. 特征联合和旋转不变空间分割联合的局部图像描述符. 自动化学报, 2016, 42(4): 617-630. doi: 10.16383/j.aas.2016.c150206

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150206?viewType=HTML


[5]  张德津, 李清泉, 陈颖, 曹民, 何莉. 基于空间聚集特征的沥青路面裂缝检测方法. 自动化学报, 2016, 42(3): 443-454. doi: 10.16383/j.aas.2016.c150511

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150511?viewType=HTML


[6]  齐美彬, 檀胜顺, 王运侠, 刘皓, 蒋建国. 基于多特征子空间与核学习的行人再识别. 自动化学报, 2016, 42(2): 299-308. doi: 10.16383/j.aas.2016.c150344

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150344?viewType=HTML


[7]  杨亚飞, 郑丹晨, 韩敏. 一种基于多尺度轮廓点空间关系特征的形状匹配方法. 自动化学报, 2015, 41(8): 1405-1411. doi: 10.16383/j.aas.2015.c140896

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2015.c140896?viewType=HTML


[8]  张文林, 牛铜, 屈丹, 李弼程, 裴喜龙. 基于声学特征空间非线性流形结构的语音识别声学模型. 自动化学报, 2015, 41(5): 1024-1033. doi: 10.16383/j.aas.2015.c140399

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2015.c140399?viewType=HTML


[9]  屈丹, 杨绪魁, 张文林. 特征空间本征音说话人自适应. 自动化学报, 2015, 41(7): 1244-1252. doi: 10.16383/j.aas.2015.c140644

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2015.c140644?viewType=HTML


[10]  郭小萍, 袁杰, 李元. 基于特征空间k最近邻的批次过程监视. 自动化学报, 2014, 40(1): 135-142. doi: 10.3724/SP.J.1004.2014.00135

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.00135?viewType=HTML


[11]  张景祥, 王士同, 邓赵红, 蒋亦樟, 李奕. 融合异构特征的子空间迁移学习算法. 自动化学报, 2014, 40(2): 236-246. doi: 10.3724/SP.J.1004.2014.00236

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.00236?viewType=HTML


[12]  林建粦, 平西建, 马德宝. 基于方向一致性特征的漂移扫描小目标检测. 自动化学报, 2013, 39(6): 875-882. doi: 10.3724/SP.J.1004.2013.00875

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2013.00875?viewType=HTML


[13]  张地, 何家忠. 基于特征空间的人脸超分辨率重构. 自动化学报, 2012, 38(7): 1145-1152. doi: 10.3724/SP.J.1004.2012.01145

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2012.01145?viewType=HTML


[14]  王英华, 韩崇昭. 基于张量空间中的均值漂移聚类的极化SAR图像分割. 自动化学报, 2010, 36(6): 798-806. doi: 10.3724/SP.J.1004.2010.00798

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2010.00798?viewType=HTML


[15]  何鹏, 陶建华. 基于Sobolev空间序列特征值问题的自然图像小尺度模式分析. 自动化学报, 2009, 35(12): 1568-1573. doi: 10.3724/SP.J.1004.2009.01568

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2009.01568?viewType=HTML


[16]  杨武夷, 梁伟, 辛乐, 张树武. 子空间半监督Fisher判别分析. 自动化学报, 2009, 35(12): 1513-1519. doi: 10.3724/SP.J.1004.2009.01513

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2009.01513?viewType=HTML


[17]  王社阳, 宋申民, 强文义, 陈兴林. 利用空间矩提取亚象素角特征. 自动化学报, 2005, 31(5): 713-719.

http://www.aas.net.cn/cn/article/id/15999?viewType=HTML


[18]  苏晓红, 王亚东, 郭茂祖, 马培军. 基于样本空间学习算法的彩色匹配方法研究. 自动化学报, 2001, 27(2): 186-193.

http://www.aas.net.cn/cn/article/id/16128?viewType=HTML


[19]  徐文立, 刘文煌. 由特征点的空间位置估计运动参数. 自动化学报, 1992, 18(4): 440-447.

http://www.aas.net.cn/cn/article/id/14459?viewType=HTML


[20]  韩建勋, 饶欣. 复杂系统建模--高维特征空间变量法. 自动化学报, 1991, 17(2): 160-165.

http://www.aas.net.cn/cn/article/id/14614?viewType=HTML


0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有