全息梯度差分卷积的图像分类网络
引用本文
袁姮, 霍欣燃, 姜文涛. 全息梯度差分卷积的图像分类网络. 自动化学报, 2025, 51(9): 2106−2130 doi: 10.16383/j.aas.c250028
Yuan Heng, Huo Xin-Ran, Jiang Wen-Tao. Image classification network of holographic gradient differential convolution. Acta Automatica Sinica, 2025, 51(9): 2106−2130 doi: 10.16383/j.aas.c250028
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c250028
关键词
图像分类,差分卷积,特征融合,多尺度特征聚合
摘要
为解决传统图像分类方法边缘信息提取模糊、多尺度特征聚合不充分的问题, 提出全息梯度差分卷积的图像分类网络(HGDNet). HGDNet以ResNet-34为基础网络, 通过设计全息梯度差分卷积(HGDConv)与多尺度特征聚合细化模块(FARM)实现对图像特征的高效提取与精细聚合. HGDConv通过设计0、45、90、135四个角度的梯度差分操作, 结合传统卷积的特性, 有效拓宽感受野, 提高对图像多角度特征的捕获能力, 显著增强了网络在细节特征和边缘信息上的表达能力. FARM通过通道注意力机制动态调整特征通道的重要性, 提升特征选择的精准性, 进一步优化特征提取与融合; 同时, FARM结合全局特征集成和多尺度特征细化, 在捕捉全局语义信息的同时, 对关键区域进行细化处理, 有效减少冗余信息并增强重要特征表达. 实验结果表明, HGDNet在CIFAR-10、CIFAR-100、SVHN、STL-10、Imagenette和Imagewoof上均表现出优异的分类性能, 相较于当前先进方法准确率显著提升. 此外, HGDConv作为一个即插即用的卷积, 与其他卷积相比也展现出更好的特征表示能力.
文章导读
在计算机视觉领域, 图像分类作为一项核心任务, 始终吸引着研究者们的广泛关注, 其旨在赋予计算机自动识别与区分图像中不同物体或场景的能力, 进而服务诸如自动驾驶、医疗影像诊断以及工业质检等多元且复杂的应用场景. 然而, 由于光照变化、物体姿态差异和背景复杂性等因素, 同一对象在不同图像中的表现可能会有所不同, 这使得图像分类变得更加复杂.
最初的传统图像分类方法主要依赖于手工特征提取和经典机器学习算法. 早期的图像分类技术通常基于特征描述算子, 如SIFT、HOG等, 这些方法通过提取图像中的局部特征, 并将其输入支持向量机、K近邻等分类器中进行学习. 这些方法在特定任务中取得较好的效果, 但在处理复杂场景和大规模数据时, 特征选择的依赖使其表现受到限制. 为突破这一瓶颈, AlexNet[1]、VGGNet[2]、GoogLe-Net[3]等基于卷积神经网络(Convolutional neural network, CNN)的架构开始在自动特征提取方面展现优势.
它们凭借卷积层与池化层的协同运作, 显著降低了对手工特征提取的依赖, 实现对空间层次特征的有效学习. 这种转变让网络能够在大规模数据集上自我学习和优化, 从而提高分类的准确率和效率.
随着CNN的发展, 研究者们也开始关注更深层次的挑战. 为解决深层网络中的梯度消失和模型退化问题, He等[4]提出ResNet, 引入采用残差学习的形式, 这种设计允许信息在网络层之间跳跃, 改善信息的流动性, 使得更深层次的网络能够被有效训练.
尽管现有的流图像分类方法取得一定成绩, 但传统卷积操作受限于感受野和卷积核大小, 往往难以有效提取边缘特征. 为解决这一问题, Aldin等[5]提出EdgeNet, 该模型结合边缘检测网络和传统卷积网络, 通过边缘增强模块来提高模型的鲁棒性, 在处理具有复杂背景的图像时, 能有效提升分类精度. Ye等[6]提出SS-MSDCNet, 利用自监督学习技术结合边缘信息, 增强模型对边缘特征的敏感度, 进而提升图像分类任务的表现. Feng等[7]提出方位角等变卷积和方位角等变针, 方位角等变卷积的采样网格始终是径向的, 而方位角等变针使得检测头能够学习预测与方位无关的目标, 一定程度上有助于更好地捕捉物体的边缘信息. Kristiani等[8]提出基于边缘计算环境的优化深度学习模型, 这是一种边缘驱动的深度学习方法, 通过专门设计的边缘感知模块, 网络能够更好地捕捉到物体的轮廓信息, 显著提高了分类准确率.
然而, 深度网络在提取边缘和轮廓信息时, 通常存在低层次特征难以直接用于分类的问题. 低层次特征虽然能够精确地描述图像中的边和轮廓, 但缺乏高层次的语义信息, 难以应对复杂的分类任务; 而高层次的语义特征虽然能够提供更有意义的分类线索, 但常常忽略细致的边缘和轮廓信息.
为解决这一问题, Szegedy等[3]提出Inception模块, 通过并行的多个不同大小的卷积核和池化层来同时提取多尺度特征, 然后将这些特征进行融合, 这种结构能有效地捕捉图像中的细节和全局信息, 提升模型对复杂场景的适应能力. Huang等[9]提出密集卷积网络(Dense convolutional network, DenseNet), DenseNet通过在每个卷积层之间引入密集卷积, 使得网络中的每一层都可以直接接收来自前面所有层的特征信息, 从而有效地聚合多尺度特征. 这种结构不仅增强了特征的重用, 还提高了网络对不同尺度物体的识别能力. Lin等[10]提出通过构建多尺度特征金字塔网络(Feature pyramid networks, FPN), 在不同层级中将低层次边缘特征与高层次语义特征进行跨尺度融合, 利用自下而上的路径传递丰富的边缘细节, 自上而下的路径则赋予其语义信息, 有效提升模型在复杂图像分类任务中的性能. Fei等[11]提出一种基于生成对抗网络的特征融合框架GAN-MAE, 在该框架中, 生成器致力于生成包含丰富边缘和语义信息的合成图像, 而判别器则负责区分真实图像与合成图像. 通过这种对抗训练的方式, 模型能够学习到如何将低层次边缘特征与高层次语义特征进行有效整合, 从而在多个图像分类数据集上取得优异的成绩.
受现有图像分类方法中边缘特征提取与多尺度融合机制的启发, 本文提出一种全息梯度差分卷积的图像分类网络(Image classification network of holographic gradient differential convolution, HGDNet). HGDNet以ResNet-34残差网络为基础网络模型, 利用全息梯度差分卷积(Holographic gradient differential convolution, HGDConv)提取丰富的梯度信息, 拓宽感受野, 有效提升特征提取能力. 同时克服传统卷积的局限, 使图像关键特征得以精准捕捉. 此外, 采用多尺度特征聚合细化模块(Multi-scale feature aggregation refinement module, FARM) 优化全局特征提取及多尺度特征的聚合与表达. 通过引入通道注意力机制和多尺度特征细化策略, 解决信息丢失、特征冗余和低权重区域特征提取不足的问题, 提升图像分类的性能.

图1

图2

图3
本研究提出图像分类网络HGDNet, 旨在克服传统方法在边缘信息提取、多尺度特征聚合等方面的缺陷. 通过引入HGDConv和FARM, 显著提升网络特征提取与聚合能力. HGDConv融合多方向梯度共生信息, 有效提取图像细节, 增强网络感知能力; FARM优化多尺度特征聚合, 提升特征表达能力. 实验结果显示, HGDNet在多个公开数据集上分类性能优异, 在细节捕捉和多尺度特征聚合上优势显著, 为图像分类任务提供有效方法.
未来的研究可以进一步探索HGDNet及HGD-Conv在其他计算机视觉任务中的应用潜力, 并针对网络结构进行优化, 以提升性能与计算效率. 此外, 随着深度学习技术的不断发展, 新兴方法可能为HGDNet或HGDConv带来更强的泛化和适应能力, 为图像分类任务提供更加精准和高效的网络模型.
作者简介
袁姮
辽宁工程技术大学软件学院副教授. 主要研究方向为图像与视觉信息计算, 模式识别与人工智能. E-mail: yuanheng@lntu.edu.cn
霍欣燃
辽宁工程技术大学软件学院硕士研究生. 主要研究方向为图像与视觉信息计算, 模式识别与人工智能. 本文通信作者. E-mail: 18511150607@163.com
姜文涛
辽宁工程技术大学软件学院副教授. 主要研究方向为图像与视觉信息计算, 模式识别与人工智能. E-mail: jiangwentao@lntu.edu.cn

加载中…