结合语义和多层特征融合的行人检测

引用本文
储珺, 束雯, 周子博, 缪君, 冷璐. 结合语义和多层特征融合的行人检测. 自动化学报, 2022, 48(1): 282−291 doi: 10.16383/j.aas.c200032
Chu Jun, Shu Wen, Zhou Zi-Bo, Miao Jun, Leng Lu. Combining semantics with multi-level feature fusion for pedestrian detection. Acta Automatica Sinica, 2022, 48(1): 282−291 doi: 10.16383/j.aas.c200032
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200032?viewType=HTML
文章简介
关键词
行人检测, 语义分割, 特征融合, 遮挡, 二次检测
摘
遮挡及背景中相似物干扰是行人检测准确率较低的主要原因. 针对该问题, 提出一种结合语义和多层特征融合(Combining semantics with multi-level feature fusion, CSMFF)的行人检测算法. 首先, 融合多个卷积层特征, 并在融合层上添加语义分割, 得到的语义特征与相应的卷积层连接作为行人位置的先验信息, 增强行人和背景的辨别性. 然后, 在初步回归的基础上构建行人二次检测模块(Pedestrian secondary detection module, PSDM), 进一步排除误检物体. 实验结果表明, 所提算法在数据集Caltech和CityPersons上漏检率(Miss rate, MR)为7.06 %和11.2 %. 该算法对被遮挡的行人具有强鲁棒性, 同时可方便地嵌入到其他检测框架.
引
行人检测是目标检测领域研究最广泛的任务之一, 也一直是计算机视觉任务中的热点和难点. 行人检测任务是给出图像或视频中所有行人的位置和大小, 一般用矩形框标注. 行人检测技术可以与目标跟踪、行人重识别等技术结合, 应用于汽车无人驾驶系统、智能视频监控、人体行为分析等领域. 在实际场景中, 由于行人与物体、行人间互相遮挡以及交通标志、橱窗中的模特等相似信息的干扰, 行人检测任务仍然存在很大的挑战.
行人检测是目标检测中的一种特例, 现阶段的很多行人检测算法都以目标检测框架为基础. 快速区域卷积神经网络 (Fast region convolutional neural network, Fast R-CNN)和更快速区域卷积神经网络 (Faster region convolutional neural network, Faster R-CNN)是目标检测和行人检测中被广泛采用的基础框架, 目前在Caltech行人检测数据集上效果较好的算法大多是基于这两个框架. 如多尺度卷积神经网络 (Multi-scale convolutional neural network, MS-CNN)和尺度感知的快速卷积神经网络 (Scale-aware fast region convolutional neural network, SA-FastRCNN)分别基于Faster R-CNN和Fast R-CNN框架强调了尺度问题, 针对不同尺寸的行人特征设计了不同尺度的子网络.
Zhang等证明了Faster R-CNN的候选区域网络(Region proposal network, RPN)对提取行人候选区域的有效性. 但同时也指出基于区域的卷积神经网络(Region-based convolutional neural network, R-CNN)在分类阶段, 由于高层卷积特征图分辨率降低, 小尺寸的行人无法得到有效的描述, 会降低检测的总体性能. 因此提出一种结合候选区域网络与决策森林(Region proposal network + boosted forests, RPN + BF)的算法. 该算法用RPN提取候选区域, 然后用决策森林对候选区域进行分类, 有效缓解了上述问题. 同样, 针对Faster R-CNN中小尺寸行人检测效果不佳的问题, Zhang等提出自适应更快速区域卷积神经网络 (AdaptFasterRCNN), 通过量化RPN尺度、增大上采样因子、微调特征步幅、处理被忽略区域和调整损失函数的方式, 进一步提升了检测效果. Yun等提出一种基于显著性和边界框对齐的部分卷积神经网络(Part-level convolutional neural network, PL-CNN), 其用RPN提取候选区域, 对特征图中前景和背景设置不同的权重来消除背景干扰引起的误检, 有效解决了行人检测中遮挡和复杂背景干扰等问题.
目标检测算法的设计是为了更好地定位不同的对象, 检测过程中只用矩形框标注目标的位置, 通常不提供目标的边界信息. 语义分割能逐像素地定位目标的边界, 将检测和分割联合, 使用基于区域的分割方法提取特征, 自上而下地聚类计算候选区域, 能有效改进目标检测的性能. Hariharan等首次提出将分割与检测同时用于行人检测, 与文献[17]一样采用自上而下的分割方法, 不同的是使用多尺度组合分组 (Multi-scale combinatorial grouping, MCG)作为分割的候选区域. Wang等提出一种基于卷积神经网络的结合部件与上下文信息(Part and context information with convolutional neural network, PCN)的算法, 部件分支利用行人的语义信息来精准分类, 对被严重遮挡的行人具有良好的检测效果. Du等提出深层神经网络融合(Fused deep neural network, F-DNN)的架构, 主要由行人候选区域生成器、分类网络和像素级别语义分割网络组成. 该算法在语义分割网络中使用掩膜增强行人特征, 降低行人检测的漏检率(Miss rate, MR), 缺点是架构结构复杂, 提高了精度, 但牺牲了速度.
上述行人检测方法虽然添加了语义分割以解决遮挡及背景干扰等问题, 但把语义分割作为一个独立的任务来设计额外的分割网络, 计算复杂. 并且在检测过程中没有针对漏检和误检问题设计独立模块. 因此, 本文提出一种新的利用语义分割来增强检测效果的行人检测框架, 将语义分割掩膜融合到共享层, 增强行人特征, 解决行人的漏检和误检问题. 由于不增加单独的语义分割网络, 因此基本不增加模型的计算复杂度. 在RPN的回归分支中用VGG-16[22]构建一个轻量的二次检测模块, 解决前一模块初步检测的误检问题, 并且对前一次检测的结果进行二次回归.
本文的主要创新点包括:
1) 提出一种新的结合语义和多层特征融合(Combining semantics with multi-level feature fusion, CSMFF)的行人检测算法. 增加了行人特征增强模块(Pedestrian feature enhancement module, PFEM)和行人二次检测模块(Pedestrian secondary detection module, PSDM), 将语义分割掩膜融合到共享层, 有效抑制背景信息的干扰和解决不同程度的遮挡问题, 并在此基础上通过二次检测和回归减少误检, 提高定位精度.
2) 在多层特征融合的基础上结合语义分割, 将骨干网络的浅层特征像素信息与深层特征语义信息进行融合, 有效提高了小尺寸行人的检测性能.
3) 行人特征增强模块可以很方便地嵌入到已有检测框架, 基本不增加运算复杂度.

图

图
作者简介
储
江西省图像处理与模式识别重点实验室(南昌航空大学)教授. 主要研究方向为计算机视觉, 模式识别和深度学习. 本文通信作者.
E-mail: chujun99602@163.com
束
江西省图像处理与模式识别重点实验室(南昌航空大学)硕士研究生. 主要研究方向为图像处理, 计算机视觉.
E-mail: shuwen0418@163.com
周子博
江西省图像处理与模式识别重点实验室(南昌航空大学)硕士研究生. 主要研究方向为图像处理, 计算机视觉.
E-mail: abaabc13@163.com
缪
江西省图像处理与模式识别重点实验室(南昌航空大学)副教授. 主要研究方向为计算机视觉, 3D重建和模式识别.
E-mail: miaojun@nchu.edu.cn
冷
江西省图像处理与模式识别重点实验室(南昌航空大学)副教授. 主要研究方向为计算机视觉, 模式识别和生物特征模板保护.
E-mail: leng@nchu.edu.cn
相关文章
[1]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170505?viewType=HTML
[2]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190747?viewType=HTML
[3]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200542?viewType=HTML
[4]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200277?viewType=HTML
[5]
http://www.aas.net.cn/cn/article/id/5c0f8248-128b-40e9-96f8-342ee9ab40da?viewType=HTML
[6]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200714?viewType=HTML
[7]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180807?viewType=HTML
[8]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200657?viewType=HTML
[9]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190063?viewType=HTML
[10]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200217?viewType=HTML
[11]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180523?viewType=HTML
[12]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200156?viewType=HTML
[13]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180213?viewType=HTML
[14]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150545?viewType=HTML
[15]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150729?viewType=HTML
[16]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2012.00659?viewType=HTML
[17]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.01455?viewType=HTML
[18]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2010.00499?viewType=HTML
[19]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2009.1403?viewType=HTML
[20]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2008.01483?viewType=HTML
[21]
http://www.aas.net.cn/cn/article/doi/10.1360/aas-007-0084?viewType=HTML