加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

基于多对多生成对抗网络的非对称跨域迁移行人再识别

(2022-04-12 14:02:39)

引用本文

 


梁文琦, 王广聪, 赖剑煌. 基于多对多生成对抗网络的非对称跨域迁移行人再识别. 自动化学报, 2022, 48(1): 103−120 doi: 10.16383/j.aas.c190303

Liang Wen-Qi, Wang Guang-Cong, Lai Jian-Huang. Asymmetric cross-domain transfer learning of person re-identification based on the many-to-many generative adversarial network. Acta Automatica Sinica, 2022, 48(1): 103−120 doi: 10.16383/j.aas.c190303

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190303?viewType=HTML


文章简介


关键词


行人再识别, 多对多跨域迁移, 非监督迁移学习, 生成对抗网络


摘   


无监督跨域迁移学习是行人再识别中一个非常重要的任务. 给定一个有标注的源域和一个没有标注的目标域, 无监督跨域迁移的关键点在于尽可能地把源域的知识迁移到目标域. 然而, 目前的跨域迁移方法忽略了域内各视角分布的差异性, 导致迁移效果不好. 针对这个缺陷, 本文提出了一个基于多视角的非对称跨域迁移学习的新问题. 为了实现这种非对称跨域迁移, 提出了一种基于多对多生成对抗网络(Many-to-many generative adversarial network, M2M-GAN)的迁移方法. 该方法嵌入了指定的源域视角标记和目标域视角标记作为引导信息, 并增加了视角分类器用于鉴别不同的视角分布, 从而使模型能自动针对不同的源域视角和目标域视角组合采取不同的迁移方式. 在行人再识别基准数据集Market1501、DukeMTMC-reID和MSMT17上, 实验验证了本文的方法能有效提升迁移效果, 达到更高的无监督跨域行人再识别准确率.


引   


行人再识别是指在非重叠的摄像头视角下检索特定的目标行人图片或视频片段, 它是多摄像机跟踪、搜索取证等重要应用中的关键技术, 广泛应用于智能视频监控网络中. 行人再识别最初的研究方法是先设计一种能够描述行人图片的手工视觉特征, 再建立一个鲁棒的距离度量模型来度量视觉特征之间的相似性. 近年来, 随着深度学习的发展, 大部分研究者转向使用深度学习来处理行人再识别问题. 文献[16-18]分别提出了基于分类损失、验证损失、三元组损失的行人再识别基本框架. 为了处理行人图像不对齐的问题, 文献[19-20]分别提出全局区域和局部区域的对齐方法, 文献[21]提出动态的特征对齐方法. 为了处理摄像头之间的差异, 文献[22]提出使用多组生成对抗网络在同域内的多个视角之间进行迁移, 以此缩小域内不同视角之间的差别. 为了进一步提高识别准确率, 最近有很多文献尝试使用额外的标注信息作为辅助. 例如文献[23]提出人体姿势驱动的深度卷积模型, 文献[24]引入行人属性标记, 文献[25-26]加入了人体掩模, 文献[27]提出在检索过程中加入时空约束.


得益于深度学习的发展, 如今行人再识别任务在大规模数据集上已经取得了良好的效果, 但需要大量带标注的训练数据. 然而, 与其他检索任务不同, 收集带标注的行人再识别训练数据更加困难. 标注数据的难点在于, 行人再识别数据集没有固定的类别, 多人合作标注很困难; 而且图像分辨率低, 不容易辨别. 为了更符合实际场景的应用需求, 科研人员开始研究如何在目标数据集没有标注信息的前提下实现行人再识别. 在这种背景下, 非监督行人再识别(Unsupervised person re-identification)成为新的研究热点.


目前, 非监督行人再识别有两类主要的研究方法. 第1类是基于聚类的非监督学习方法. 文献[28]提出一种基于聚类的非对称度量学习方法, 利用非对称聚类学习把不同视角的数据投影到共享空间中. 文献[29]提出基于聚类和微调的非监督深度学习框架. 该方法先使用预训练的神经网络模型提取目标数据集的特征, 然后通过聚类算法得到目标数据集的伪标签, 再利用伪标签对预训练的网络进行微调(Fine-tune). 文献[30]在文献[29]的框架上再进行改进, 提出一种自底向上逐层合并最相近簇的聚类方法.


非监督行人再识别的第2类研究方法是跨域迁移学习方法(Cross-domain transfer learning). 这类方法通常都有带标注的行人再识别数据集作为辅助, 这个辅助的数据集称为源数据集或源域(Source domain), 实际应用场景对应的无标注数据集称为目标数据集或目标域(Target domain). 由于只有源域是有标注的, 所以这类方法的关键之处在于尽可能地把从源域中学习到的知识迁移到目标域中. 文献[31]通过添加域分类器和梯度反传网络层来实现域适应. 文献[32]提出一种跨域自适应的Ranking SVM (Support vector machine)方法, 利用了源域的正负样本、目标域的负样本和目标域估计的正样本均值来训练. 文献[33-34]则提出两阶段的跨域迁移学习方法: 首先利用生成对抗网络实现源域数据分布到目标域数据分布的变换, 根据变换前源域数据的标签对变换后的图片进行标注; 然后使用变换后的图片及其对应的标注进行有监督训练.


跨域迁移学习方法对目标域训练集(无标注数据)的数据分布限制更少, 应用范围更广泛, 更加适合实际的行人再识别应用场景. 但是现有的跨域迁移学习方法没有考虑视角偏差(View-specific bias)问题, 源域中不同视角(摄像机)的数据以完全相同的迁移方式变换到目标域中. 也就是说, 目前的迁移方式都是对称的(对称迁移). 然而在智能监控视频网络中, 不同拍摄地点的光照条件、拍摄角度以及摄像机本身的参数都可能存在明显的差别, 不同摄像头拍摄到的图片往往服从不同的分布. 在跨域迁移学习时, 忽略摄像头的分布差异一方面会导致迁移效果不佳, 另一方面会导致迁移后的数据无法体现出目标域多个视角子分布的情况, 从而不利于训练跨视角匹配模型.


基于以上分析, 本文提出基于多视角(摄像机)的非对称跨域迁移学习方法. 在基于生成对抗网络的两阶段跨域迁移学习方法基础上, 本文针对视角之间的差异问题进行建模. 为了对每种源域−目标域视角组合使用不同的迁移方式(称为非对称迁移), 一个最简单直观的想法是把每个视角的数据看成是各自独立的, 然后训练多组互不相干的生成对抗网络模型, 每个模型分别把知识从源域的某个视角迁移到目标域的某个视角. 然而, 这种不同视角组合使用不同网络参数的非对称迁移方式非常消耗训练时间和存储空间. 假如源域有M个视角, 目标域有N个视角, 则一共需要训练M×N组生成对抗网络. 大型智能监控网络涉及的摄像头数目非常多, 显然这种方法是不切实际的. 除此之外, 单独使用每对视角的数据来训练生成对抗网络无法利用数据集内不同视角数据之间的相关性. 为了解决独立训练而造成成本太高的问题, 并尽可能地利用不同视角数据的相关性, 本文提出把非对称迁移学习嵌入到一组生成对抗网络中. 为此, 我们设计了一个多对多生成对抗网络(Many-to-many generative adversarial network, M2M-GAN), 同时实现源域任意视角子分布到目标域任意视角子分布的转换. 实验表明, 与现有的对称迁移方法(不考虑视角差异, 且仅有一组生成对抗网络网络)相比, 我们的方法只需增加少量训练时间和空间成本就能有效提升识别准确率. 与单独训练多组生成对抗网络这种简单的建模方式(考虑视角差异, 但需M×N组生成对抗网络)相比, 我们的方法在训练成本和识别准确率两方面都取得更优的性能.


本文的主要贡献: 


1)针对源域或者目标域存在多个具有差异性的子分布问题, 本文提出一种多对多的跨域迁移模型来区别对待源域不同的子分布到目标域不同的子分布的迁移. 本文将这种区分性的迁移模式称为非对称迁移. 为了更好地优化非对称迁移学习模型, 本文提出了一种基于多对多生成对抗网络(M2M-GAN)的迁移学习方法, 同时实现把源域任意子分布的图像风格转变成目标域任意子分布的图像风格. 


2)视角偏差或摄像机差异是跨域迁移行人再识别领域被忽略的一个关键问题. 本文将M2M-GAN方法应用于该领域, 生成了具有视角差异且服从目标域各个视角子分布的行人图片, 进而使得模型学习到的特征具有视角偏差不变性, 有效提升了无监督跨域迁移行人再识别的准确率. 


3)在Market-1501, DukeMTMC-reID和MSMT17三个大规模多摄像头行人再识别基准数据集上, 实验结果验证了M2M-GAN的有效性.


基于多对多生成对抗网络的非对称跨域迁移行人再识别
图  本文提出的多视角对多视角迁移方式与现有迁移方式的比较


基于多对多生成对抗网络的非对称跨域迁移行人再识别
图  多对多生成对抗网络框架(省略了目标域→→源域的生成过程、循环一致损失和身份保持损失)


基于多对多生成对抗网络的非对称跨域迁移行人再识别
图  其他数据集迁移到Market数据集的可视化例子


作者简介


梁文琦

中山大学计算机学院硕士研究生. 2018年获中山大学计算机科学与技术学士学位. 主要研究方向为行人再识别和深度学习.

E-mail: liangwq8@mail2.sysu.edu.cn


王广聪

中山大学计算机学院博士研究生. 2015年获吉林大学通信工程学院学士学位. 主要研究方向为行人再识别和深度学习.

E-mail: wanggc3@mail2.sysu.edu.cn


赖剑煌

中山大学教授. 1999年获得中山大学数学系博士学位. 目前在IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), IEEE Transactions on Neural Networks and Learning Systems (TNNLS), IEEE Transactions on Image Processing (TIP), IEEE Transactions on Systems, Man, and Cybernetics Part B — Cybernetics (TSMC-B), Pattern Recognition (PR), IEEE International Conference on Computer Vision (ICCV), IEEE Conference on Computer Vision and Pattern Recognition (CVPR),IEEE International Conference on Data Mining (ICDM)等国际权威刊物发表论文200多篇. 主要研究方向为图像处理, 计算机视觉, 模式识别. 本文通信作者.

E-mail: stsljh@mail.sysu.edu.cn


相关文章


[1]   尹明, 吴浩杨, 谢胜利, 杨其宇. 基于自注意力对抗的深度子空间聚类. 自动化学报, 2022, 48(1): 271-281. doi: 10.16383/j.aas.c200302

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200302?viewType=HTML


[2]   胡铭菲, 左信, 刘建伟. 深度生成模型综述. 自动化学报, 2022, 48(1): 40-74. doi: 10.16383/j.aas.c190866

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190866?viewType=HTML


[3]   钱锦浩, 宋展仁, 郭春超, 赖剑煌, 谢晓华. 基于时空共现模式的视觉行人再识别. 自动化学报, 2022, 48(2): 408-417. doi: 10.16383/j.aas.c200897

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200897?viewType=HTML


[4]   林泓, 任硕, 杨益, 张杨忆. 融合自注意力机制和相对鉴别的无监督图像翻译. 自动化学报, 2021, 47(9): 2226-2237. doi: 10.16383/j.aas.c190074

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190074?viewType=HTML


[5]   蒋芸, 谭宁. 基于条件深度卷积生成对抗网络的视网膜血管分割. 自动化学报, 2021, 47(1): 136-147. doi: 10.16383/j.aas.c180285

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180285?viewType=HTML


[6]  赖轩, 曲延云, 谢源, 裴玉龙. 基于拓扑一致性对抗互学习的知识蒸馏. 自动化学报. doi: 10.16383/j.aas.200665

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.200665?viewType=HTML


[7]   张宁, 王永成, 张欣, 徐东东. 基于深度学习的单幅图片超分辨率重构研究进展. 自动化学报, 2020, 46(12): 2479-2499. doi: 10.16383/j.aas.c190031

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190031?viewType=HTML


[8]   刘建伟, 谢浩杰, 罗雄麟. 生成对抗网络在各领域应用研究进展. 自动化学报, 2020, 46(12): 2500-2536. doi: 10.16383/j.aas.c180831

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180831?viewType=HTML


[9]   孔锐, 蔡佳纯, 黄钢. 基于生成对抗网络的对抗攻击防御模型. 自动化学报. doi: 10.16383/j.aas.2020.c200033

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2020.c200033?viewType=HTML


[10]   胡旭光, 马大中, 郑君, 张化光, 王睿. 基于关联信息对抗学习的综合能源系统运行状态分析方法. 自动化学报, 2020, 46(9): 1783-1797. doi: 10.16383/j.aas.c200171

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200171?viewType=HTML


[11]   付晓, 沈远彤, 李宏伟, 程晓梅. 基于半监督编码生成对抗网络的图像分类模型. 自动化学报, 2020, 46(3): 531-539. doi: 10.16383/j.aas.c180212

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180212?viewType=HTML


[12]   刘一敏, 蒋建国, 齐美彬, 刘皓, 周华捷. 融合生成对抗网络和姿态估计的视频行人再识别方法. 自动化学报, 2020, 46(3): 576-584. doi: 10.16383/j.aas.c180054

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180054?viewType=HTML


[13]   吴彦丞, 陈鸿昶, 李邵梅, 高超. 基于行人属性先验分布的行人再识别. 自动化学报, 2019, 45(5): 953-964. doi: 10.16383/j.aas.c170691

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c170691?viewType=HTML


[14]   孙亮, 韩毓璇, 康文婧, 葛宏伟. 基于生成对抗网络的多视图学习与重构算法. 自动化学报, 2018, 44(5): 819-828. doi: 10.16383/j.aas.2018.c170496

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170496?viewType=HTML


[15]  张一珂, 张鹏远, 颜永红. 基于对抗训练策略的语言模型数据增强技术. 自动化学报, 2018, 44(5): 891-900. doi: 10.16383/j.aas.2018.c170464

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170464?viewType=HTML


[16]   赵树阳, 李建武. 基于生成对抗网络的低秩图像生成方法. 自动化学报, 2018, 44(5): 829-839. doi: 10.16383/j.aas.2018.c170473

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170473?viewType=HTML


[17]   张龙, 赵杰煜, 叶绪伦, 董伟. 协作式生成对抗网络. 自动化学报, 2018, 44(5): 804-810. doi: 10.16383/j.aas.2018.c170483

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170483?viewType=HTML


[18]   李幼蛟, 卓力, 张菁, 李嘉锋, 张辉. 行人再识别技术综述. 自动化学报, 2018, 44(9): 1554-1568. doi: 10.16383/j.aas.2018.c170505

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170505?viewType=HTML


[19]   唐贤伦, 杜一铭, 刘雨微, 李佳歆, 马艺玮. 基于条件深度卷积生成对抗网络的图像识别方法. 自动化学报, 2018, 44(5): 855-864. doi: 10.16383/j.aas.2018.c170470

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170470?viewType=HTML


[20]   齐美彬, 檀胜顺, 王运侠, 刘皓, 蒋建国. 基于多特征子空间与核学习的行人再识别. 自动化学报, 2016, 42(2): 299-308. doi: 10.16383/j.aas.2016.c150344

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150344?viewType=HTML


0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有