基于像素对比学习的图像超分辨率算法
引用本文
周登文, 刘子涵, 刘玉铠. 基于像素对比学习的图像超分辨率算法. 自动化学报, 2024, 50(1): 181−193 doi: 10.16383/j.aas.c230395
Zhou Deng-Wen, Liu Zi-Han, Liu Yu-Kai. Pixel-wise contrastive learning for single image super-resolution. Acta Automatica Sinica, 2024, 50(1): 181−193 doi: 10.16383/j.aas.c230395
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c230395
关键词
图像超分辨率,卷积神经网络,对比学习,注意力机制
摘要
目前, 深度卷积神经网络(Convolutional neural network, CNN)已主导了单图像超分辨率(Single image super-resolution, SISR)技术的研究, 并取得了很大进展. 但是, SISR仍是一个开放性问题, 重建的超分辨率(Super-resolution, SR)图像往往会出现模糊、纹理细节丢失和失真等问题. 提出一个新的逐像素对比损失, 在一个局部区域中, 使SR图像的像素尽可能靠近对应的原高分辨率(High-resolution, HR)图像的像素, 并远离局部区域中的其他像素, 可改进SR图像的保真度和视觉质量. 提出一个组合对比损失的渐进残差特征融合网络(Progressive residual feature fusion network, PRFFN). 主要贡献有: 1)提出一个通用的基于对比学习的逐像素损失函数, 能够改进SR图像的保真度和视觉质量; 2)提出一个轻量的多尺度残差通道注意力块(Multi-scale residual channel attention block, MRCAB), 可以更好地提取和利用多尺度特征信息; 3)提出一个空间注意力融合块(Spatial attention fuse block, SAFB), 可以更好地利用邻近空间特征的相关性. 实验结果表明, PRFFN显著优于其他代表性方法.
文章导读
单图像超分辨率(Single image super-resolution, SISR)[1]是计算机视觉中一个基本任务, 旨在从低分辨率(Low-resolution, LR)图像, 恢复出对应的高分辨率(High-resolution, HR)图像, 在诸如遥感成像[2]、视频监控[3]和医学成像[4]中, 应用广泛. SISR是一个病态的逆问题, 因为许多HR图像可退化为相同的LR图像, 需要提供图像的先验知识, 约束超分辨率(Super-resolution, SR)图像的解空间. SISR仍然是计算机视觉中开放性的研究问题, 重建的SR图像往往会出现模糊、纹理细节丢失和失真等问题.
早期的SISR是基于插值的方法, 如双线性插值和双三次(Bicubic)插值. 基于插值的方法仍被广泛使用, 具有很低的计算复杂度, 但不能恢复LR图像中丢失的图像细节. 基于实例学习的方法[5-7]旨在通过训练图像, 学习LR图像和HR图像之间的映射关系, 改进了基于插值的方法. 但是, 基于实例学习的方法往往优化困难,
并具有较高的推理复杂度.
目前, 深度卷积神经网络(Convolutional neural
networks, CNN)技术[8-13]直接端到端地学习LR和HR图像之间的映射关系, 显著提高了SISR性能, 并主导了目前SISR技术的研究. 基于CNN的SISR方法研究主要是探索新的SR网络架构, 损失函数广泛使用均方误差(Mean squared error, MSE)[12]和平均绝对误差(Mean absolute error,
MAE)[8], 但这些传统的逐像素损失生成的SR图像是潜在SR输出图像的平均[14], 导致输出的图像被过度平滑. 为了解决这个问题,
Johnson等[15]提出感知损失. 感知损失不是在图像空间度量逐像素的损失,
而是在预训练的VGG (Oxford
visual geometry group)网络[16]特征空间度量逐像素损失. 感知损失能改进SR图像的感知质量, 但降低了SR图像保真度. 重要的是, 感知损失也不能阻止SR图像的模糊. Wang等[17]提出一个对比自蒸馏(Contrastive self-distillation, CSD)网络, 引入一个基于对比学习的损失函数.
CSD损失与感知损失类似, 也在预训练VGG网络的特征空间逐像素比较损失. 以教师子网络输出的SR图像作为正样本, 学生子网络输出的SR图像作为锚, 从同一个批次中采样K个图像(除锚外), 通过双三次上采样到与输出SR图像相同的分辨率作为负样本.
CSD损失使锚更靠近正样本, 并远离负样本, 进一步改进了学生子网络输出的SR图像的视觉质量. 与感知损失相比, CSD损失除限制了学生子网络输出的上界(正样本)外, 也限制了下界(负样本), 以减小解空间. 但CSD损失也有与感知损失类似的保真度低问题.
另外,
CSD损失使用双三次上采样图像作为负样本, 是一个较弱的下界. 受CSD启发, 提出一个新的基于对比学习的逐像素损失函数Lcntr.

图

图
本文的主要贡献有: 1)提出一个通用的基于对比学习的逐像素损失函数Lcntr, 能够显著改进SR图像的视觉质量; 2)提出一个新的SR网络架构PRFFN, 主要组件是MRCAB和空间注意力融合块(Spatial attention fuse block, SAFB), MRCAB可以更好地提取和利用多尺度特征信息, 而SAFB可以更好地利用邻近特征的相关性; 3) 实验结果表明, PRFFN组合Lcntr取得了有竞争力的SR性能.

图
本文提出一个通用的基于对比学习的逐像素损失函数Lcntr,
以恢复出的SR图像像素作为锚样本, 原HR图像对应的像素作为正样本, 其他像素作为负样本.
作者简介
周登文
华北电力大学控制与计算机工程学院教授. 主要研究方向为图像去噪, 图像去马赛克, 图像插值和图像超分辨率. 本文通信作者.
E-mail:
刘子涵
华北电力大学控制与计算机工程学院硕士研究生. 主要研究方向为计算机视觉, 深度学习.
E-mail:
刘玉铠
华北电力大学控制与计算机工程学院硕士研究生. 主要研究方向为计算机视觉, 深度学习.
E-mail:

加载中…