基于图像特定分类器的弱监督语义分割

引用本文
郭子麟, 吴东岳, 高常鑫, 桑农. 基于图像特定分类器的弱监督语义分割. 自动化学报, 2025, 51(6): 1191−1204 doi: 10.16383/j.aas.c240636
Guo Zi-Lin, Wu Dong-Yue, Gao Chang-Xin, Sang Nong. Image-specific classifiers for weakly supervised semantic segmentation. Acta Automatica Sinica, 2025, 51(6): 1191−1204 doi: 10.16383/j.aas.c240636
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c240636
关键词
语义分割,图像级标签,分类器,类激活图,弱监督学习
摘要
基于图像级标签的弱监督语义分割算法因极低的标注成本引起学界广泛关注. 该领域的算法利用分类网络产生的类激活图实现从图像级标签到像素级标签的转化. 然而类激活图往往只关注于图像中最显著的区域, 致使基于类激活图产生的伪标签与真实标注存在较大差距, 主要包括前景未被有效激活的欠激活问题以及前景间预测混淆的错误激活问题. 欠激活源于数据集类内差异过大, 致使单一分类器不足以准确识别同一类别的所有像素; 错误激活则是数据集类间差异过小, 导致分类器不能有效区分不同类别的像素. 本文考虑到同一类别像素在图像内的差异小于在数据集中的差异, 设计基于类中心的图像特定分类器, 以提升对同类像素的识别能力, 从而改善欠激活, 同时考虑到类中心是类别在特征空间的代表, 设计类中心约束函数, 通过扩大类中心间的差距从而间接地疏远不同类别的特征分布, 以缓解错误激活现象. 图像特定分类器可以插入其他弱监督语义分割网络, 替代分类网络的分类器, 以产生更高质量的类激活图. 实验结果表明, 本文所提出的方案在两个基准数据集上均具有良好的表现, 证实了该方案的有效性.
文章导读
语义分割是当今计算机视觉的核心任务之一, 其目的是为图像中的每个像素赋予对应的语义标签.
该任务具有广泛的下游应用,
例如: 自动驾驶[1], 视频编辑[2], 工业机器人[3]等.
随着深度学习的提出和发展, 该领域也不断实现突破. 当前的语义分割算法通常基于卷积神经网络[4]
然而, 语义分割作为一种像素级的分类任务,
获取训练样本标签的过程极其费时费力. 据统计, 对于CityScapes数据集[6], 一张2048$ \times $1024的图像大约需要2 h的标注时间. 为减轻标注带来的成本代价, 研究者们尝试利用弱标签(边界框标签[7]、涂鸦标签[8]以及图像级标签[9])训练网络, 其中图像级标签因其极低的标注成本而备受青睐.
当前基于图像级标签的弱监督语义分割(Weakly supervised semantic
segmentation, WSSS)算法主要依赖于类激活图[10]
针对类激活图存在的缺陷, 研究者们提出一系列的解决方案. 早期的学者设计一种随机擦除的策略[11−12],
通过擦除图像中最显著的区域,
将修正后的图像重新送入网络迫使其关注到图像中的其他区域, 迭代上述过程从而实现对类激活图的逐步扩张.
PSA[9]
尽管上述方法相较于基准网络而言在一定程度上改善了类激活图的质量, 但是本文认为还有很大的改进空间.
回顾类激活图的产生过程,
其本质上是特征图与分类器的作用结果. 绝大多数方法都侧重于改善网络产生的特征图,
却忽视了分类器的作用.
数据集中通常会存在类内差异过大以及类间差异过小的问题. 类内差异过大会导致单一分类器无法有效地识别同一类别中的所有像素, 因此产生的类激活图只能关注到图像中的一部分区域.
而类间差异过小则会导致分类器无法有效区分不同类别的物体, 导致类间预测错误, 这种问题在物体边界上尤为明显.
针对类内差异过大而单一分类器无法有效识别所有同类像素, 导致类激活图只关注于图像中最显著区域的问题,
本文提出为每幅图像构建特定分类器替代单一分类器产生类激活图. 图像特定分类器(Image-specific classifier, ISC)由类中心生成器产生, 并与图像特征基于相似度计算产生类激活图.
一方面, 类中心是类别在特征空间中的表达,
图像中的像素特征会与自身所属类别的类中心更为相近, 因此在与所有类别的类中心进行相似度计算后,
会在所属类别对应的通道上拥有更大的数值, 从而在经过后续的归一化流程后实现了激活;
另一方面,
单一图像内部的类内差异小于数据集中的类内差异, 因此设计图像特定分类器可以解决单一分类器因识别能力欠缺, 导致类激活图只关注于图像中最显著区域的问题.
针对类间差异过小而分类器不能有效区分不同类别的像素特征, 导致类激活图出现类间预测错误现象,
设计类中心约束函数(Class center
constrained loss function, $ L_{cccl} $)扩大不同类中心间的差异. 类中心本质上是同类像素特征加权平均的结果,
因而对类中心施加的约束将扩散至该类对应的像素上, 从而扩大类间差异, 有助于缓解类间预测错误现象.
本文提出的方法作为一个可插入性方案, 可以与其他弱监督语义分割模型相结合,
以产生更高质量的CAM.

图
本文的主要贡献包含以下三个方面:
1) 提出基于类中心构建图像特定分类器的方法, 改善基于单一分类器产生的类激活图只关注图像中最显著性区域的问题;
2) 设计类中心约束函数,
通过约束类中心间接地扩大类间差异, 缓解类激活图中常见的类间预测错误现象;
3) 在两个基准数据集PASCAL VOC
2012[16]和MS COCO
2014[17]上进行大量实验, 证实所提方案的有效性.

图

图
本文从改善分类器的角度出发,
设计图像特定分类器,
用于替代传统弱监督语义分割算法中的单一分类器产生类激活图. 该方法以图像中的类中心作为图像特定的分类器,
解决单一分类器因类内差异过大而无法有效分类同类所有像素的问题, 同时设计类中心约束函数, 通过约束不同类的类中心的关系间接改善类间错误激活问题.
本文所提出的方法具有可插入性,
可以与其他弱监督语义分割模型搭配, 以提供更高质量的类激活图和伪标签.
在实验阶段探讨不同相似度度量算法、不同形式的类中心约束函数以及不同超参数设置对实验结果的影响,
同时与其他可插入性方法对比了计算消耗、运算速度、参数量以及显存占用, 分析各方法的优劣. 最后在多个不同模型以及两个数据集上进行大量实验,
证明本文所提出方案的有效性.
作者简介
郭子麟
华中科技大学人工智能与自动化学院博士研究生. 主要研究方向为语义分割.
E-mail:
吴东岳
华中科技大学人工智能与自动化学院博士研究生. 主要研究方向为语义分割, 模型剪枝.
E-mail:
高常鑫
华中科技大学人工智能与自动化学院教授. 主要研究方向为模式识别, 视频分析.
E-mail:
桑农
华中科技大学人工智能与自动化学院教授. 主要研究方向为低质图像增强, 图像/视频语义分割, 行为检测与识别, 行人检索. 本文通信作者.
E-mail: