基于自注意力模态融合网络的跨模态行人再识别方法研究

引用本文
杜鹏, 宋永红, 张鑫瑶. 基于自注意力模态融合网络的跨模态行人再识别方法研究. 自动化学报, 2022, 48(6): 1457-1468 doi: 10.16383/j.aas.c190340
Du Peng, Song Yong-Hong, Zhang
Xin-Yao. Self-attention cross-modality fusion network for
cross-modality person re-identification. Acta Automatica Sinica,
2022, 48(6): 1457-1468 doi: 10.16383/j.aas.c190340
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190340?viewType=HTML
文章简介
关键词
跨模态行人再识别, 自注意力, 模态融合, CycleGAN
摘
行人再识别是实现多目标跨摄像头跟踪的核心技术, 该技术能够广泛应用于安防、智能视频监控、刑事侦查等领域. 一般的行人再识别问题面临的挑战包括摄像机的低分辨率、行人姿态变化、光照变化、行人检测误差、遮挡等. 跨模态行人再识别相比于一般的行人再识别问题增加了相同行人不同模态的变化. 针对跨模态行人再识别中存在的模态变化问题, 本文提出了一种自注意力模态融合网络. 首先是利用CycleGAN生成跨模态图像. 在得到了跨模态图像后利用跨模态学习网络同时学习两种模态图像特征, 对于原始数据集中的图像利用SoftMax 损失进行有监督的训练, 对生成的跨模态图像利用LSR (Label smooth regularization) 损失进行有监督的训练. 之后, 使用自注意力模块将原始图像和CycleGAN生成的图像进行区分, 自动地对跨模态学习网络的特征在通道层面进行筛选. 最后利用模态融合模块将两种筛选后的特征进行融合. 通过在跨模态数据集SYSU-MM01上的实验证明了本文提出的方法和跨模态行人再识别其他方法相比有一定程度的性能提升.
引
近年来, 伴随着视频采集技术的大力发展, 大量的监控摄像头部署在商场、公园、学校等公共场所. 监控摄像的出现给人们带来了极大的便利, 其中最直接的一个好处就是可以帮助公安等执法部门解决盗窃、抢劫等重大刑事案件. 但是正是由于监控摄像头布置的区域十分广阔, 基本在大中小城市中都遍地布满了监控摄像头, 当一个目标人物在一个城市的监控摄像网络中移动时, 往往会导致公安等相关部门人员在一定时间内在整个网络中对监控视频进行查看, 这对公安等相关部门进行区域的管理以及视频的查看带来了较大的不便. 因此, 需要一种方便、快捷的方式来代替人工对监控视频中行人进行搜寻. 为了实现对监控视频中的行人进行搜寻这个目标, 其本质就是要实现多目标跨摄像头追踪, 而行人再识别技术是多目标跨摄像头追踪问题的核心与关键. 行人再识别和多目标跨摄像头追踪的关系如图1所示. 实际场景中, 摄像头拍摄到的是包含众多行人与复杂背景的图像, 这个时候可以利用行人检测技术从拍摄到的复杂全景图像中得到行人包围框, 之后对于行人包围框集合利用行人再识别技术进行搜寻.

图 1
除此之外, 犯罪分子通常会在夜间行动, 这时仅仅靠RGB相机去采集图像不能很好地解决这种夜间出现的行人匹配问题. 为了对夜晚出现的行人也能进行匹配, 除了RGB相机外, 有些地方可能会布控红外(Infrared, IR)相机, 这样, 在夜间或者是光线较暗处也可以采集到行人的红外图, 弥补了在夜晚传统的RGB相机采集失效的问题. 在这种情况下, RGB图和IR图之间的跨模态匹配(跨模态行人再识别)具有很重要的现实意义. 跨模态匹配的重点是寻找不同模态间的相似性, 从而跨越模态对行人再识别的限制.
跨模态行人再识别相对于传统的行人再识别,
除了面临行人之间姿态变化、视角变化等问题外,
数据之间还存在跨模态的难点.

图 2
针对上述这些问题, 本文主要创新点如下:
1)提出一种自注意力模态融合网络以解决跨模态行人再识别中存在的模态变化问题;
2)提出使用CycleGAN对图像进行模态间的转换, 从而解决学习时需要对应的样本对问题;
3)提出使用自注意力机制进行不同模态之间的特征筛选, 从而有效地对原始图像和使用CycleGAN生成的图像进行区分.

图
作者简介
杜
西安交通大学软件学院硕士研究生. 主要研究方向为行人再识别.
E-mail: xjydupeng@163.com
宋永红
西安交通大学人工智能学院研究员. 主要研究方向为图像与视频内容理解, 智能软件开发. 本文通信作者.
E-mail: songyh@xjtu.edu.cn
张鑫瑶
西安交通大学软件学院硕士研究生. 主要研究方向为行人再识别.
E-mail: xyzhangxy@stu.xjtu.edu.cn
相关文章
[1]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.y000002?viewType=HTML
[2]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190303?viewType=HTML
[3]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200302?viewType=HTML
[4]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c211210?viewType=HTML
[5]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200604?viewType=HTML
[6]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200443?viewType=HTML
[7]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190435?viewType=HTML
[8]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200184?viewType=HTML
[9]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190074?viewType=HTML
[10]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190459?viewType=HTML
[11]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200778?viewType=HTML
[12]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180054?viewType=HTML
[13]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190805?viewType=HTML
[14]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200493?viewType=HTML
[15]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c170691?viewType=HTML
[16]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180721?viewType=HTML
[17]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170505?viewType=HTML
[18]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160433?viewType=HTML
[19]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150048?viewType=HTML
[20]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.01322?viewType=HTML
[21]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.00408?viewType=HTML