融合属性特征的行人重识别方法

引用本文
邵晓雯, 帅惠, 刘青山. 融合属性特征的行人重识别方法. 自动化学报,
2022,
Shao Xiao-Wen, Shuai Hui, Liu Qing-Shan. Person re-identification based on fused attribute features. Acta Automatica Sinica, 2022, 48(2): 564−571 doi: 10.16383/j.aas.c190763
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190763?viewType=HTML
文章简介
关键词
行人重识别, 属性识别, 深度学习, 自适应权重
摘
行人重识别旨在跨监控设备下检索出特定的行人目标. 由于不同的行人可能具有相似的外观, 因此要求行人重识别模型能够捕捉到充足的细粒度特征. 本文提出一种融合属性特征的行人重识别的深度网络方法, 将行人重识别和属性识别集成在分类网络中, 进行端到端的多任务学习. 此外, 对于每张输入图片, 网络自适应地生成对应于每个属性的权重, 并将所有属性的特征以加权求和的方式结合起来, 与全局特征一起用于行人重识别任务. 全局特征关注行人的整体外观, 而属性特征关注细节区域, 两者相互补充可以对行人进行更全面的描述. 在行人重识别的主流数据集DukeMTMC-reID和Market-1501上的实验结果表明了本文方法的有效性, 平均精度均值(Mean average precision, mAP)分别达到了74.2%和83.5%, Rank-1值分别达到了87.1%和93.6%. 此外, 在这两个数据集上的属性识别也得到了比较好的结果.
引
行人重识别指跨监控设备下的行人检索问题, 在公共安全、智能监控等领域具有广泛的应用. 具体而言, 给定一张行人图片, 行人重识别用来在其他摄像头拍摄的大型图片库中找出该行人的图片. 由于监控图片的分辨率低, 且不同的图片之间存在光照、姿态、摄像头视角等方面的差异, 行人重识别目前仍是一个很有挑战性的问题.
相关研究
早期行人重识别的研究思路通常是先对行人图片提取手工特征, 如颜色直方图、方向梯度直方图(Histogram of oriented gradient, HOG)等, 然后使用相似性度量方法, 如大边界最近邻算法(Large margin nearest neighbor, LMNN)、交叉二次判别分析算法(Cross-view quadratic discriminant analysis, XQDA)等来学习度量矩阵. 为了克服光照、成像条件等因素影响, 采用多特征分析是常用的一种方式. 随着深度学习技术的兴起, 深度学习广泛应用于行人重识别任务中. 目前, 基于深度学习的行人重识别方法在性能上大大超过了传统方法, 主要有如下两个原因: 1) 手工设计的特征描述能力有限, 而深度学习使用深度卷积神经网络可以自动学习出更复杂的特征; 2) 深度学习可以将特征提取和相似性度量联合在一起, 实现端到端的学习, 从而得到全局最优解.
目前基于深度学习的行人重识别方法主要分为度量学习和表征学习方法. 度量学习通过设计不同的度量损失来约束特征空间, 使得同一个行人的不同图片在特征空间上距离很近, 而不同行人的距离很远, 如三元组损失(Triplet loss)、四元组损失(Quadruplet loss)和群组相似性学习(Group similarity learning)等方法. 这类方法的关键在于样本对的选取, 由于大量样本对简单易于区分, 随机采样将会导致网络的泛化能力有限, 因而需要挑选出一些难样本对进行训练. Zhu等对困难和简单的负样本设计不同的目标函数来学习距离度量方法, 以充分利用负样本中的信息. 相对于表征学习, 度量学习的训练时间更长, 收敛也更困难. 因此, 表征学习方法得到了更加广泛的研究.
表征学习方法在训练网络时将行人重识别当作身份分类任务来学习行人特征, 关键问题是如何设计网络以学习到更具有判别力的特征. Sun等根据人体结构的先验知识, 在垂直方向上对特征图均匀分块, 然后提取每个区域的局部特征. 还有一些方法利用额外的语义信息, 例如骨骼关键点、分割结果等, 定位行人的各个部位. Su等借助关键点检测模型对人体区域定位、裁剪、归一化后, 拼接成新的图片作为网络的输入. Sarfraz等将行人14个关键点的位置响应图和原图片一起输入到网络中, 让网络自动地学习对齐. Kalayeh等在LIP (Look into person)数据集上训练人体解析模型来预测4个人体部位和背景, 然后在特征图上提取这些部位的特征.
由于不同的行人可能具有相似的外观, 而同一个行人在不同的环境下存在很大差异, 只从全局外观的角度无法进行正确匹配. 行人的属性, 例如性别、是否背包、头发长短等, 包含丰富的语义信息, 可以为行人重识别提供关键的判别线索. 早期的研究中, Layne等手工标注了15种语义属性来描述行人, 包括性别、服装种类、是否携带物品等, 并使用支持向量机(Support vector machine, SVM)训练属性分类器, 最后与底层特征融合得到行人图像的最终特征描述. 随着深度学习的广泛应用, Zhu等在一个卷积神经网络中同时预测多个属性, 在PETA (Pedestrian attribute)数据集上的属性识别性能明显优于基于SVM的方法. Schumann等先在PETA数据集上训练属性识别模型, 然后在行人重识别模型中利用属性预测的结果, 使得网络可以学习到与属性互补的特征. 该方法分开训练两个网络, 无法充分利用属性标签和身份标签, 导致行人重识别的性能比较低. Lin等在行人重识别数据集DukeMTMC-reID[23]和Market1501上标注了行人属性, 并提出APR (Attribute-person recognition)模型实现行人重识别和属性识别的多任务学习, 同时将属性预测的结果和全局特征一起用于行人重识别任务. 该方法使用属性的预测结果, 当属性识别错误时, 会给行人重识别引入噪声. Tay等提出了AANet (Attribute attention network), 将行人属性和属性的激活区域图集成到分类网络中来解决行人重识别问题, 得到了比较好的检索结果. 上述方法同等对待所有属性, 忽略了每个属性对每张图片的重要性是不同的.
针对以上问题, 本文提出了融合属性特征的行人重识别方法, 主要工作如下: 1) 将行人重识别和属性识别集成到分类网络中进行端到端的学习; 2) 为了减小属性识别错误对行人重识别的影响, 从特征的角度利用属性信息; 3) 自适应地生成对应于每个属性的权重, 并将所有属性特征以加权求和的方式结合起来, 与全局特征一起用于行人重识别任务. 在DukeMTMC-reID和Market-1501数据集上的实验结果表明了本文方法的有效性.

图 3

图
作者简介
邵晓雯
南京信息工程大学自动化学院硕士研究生. 2018年获得南京信息工程大学电子与信息工程学院学士学位. 主要研究方向为计算机视觉, 行人重识别.
E-mail: xiaowen_shao@nuist.edu.cn
帅
南京信息工程大学博士研究生. 2018年获得南京信息工程大学信息与控制学院硕士学位. 主要研究方向为目标检测, 3D 场景解析.
E-mail: huishuai13@163.com
刘青山
南京信息工程大学自动化学院院长, 教授. 2003年获得中国科学院自动化研究所博士学位. 主要研究方向为图像理解, 模式识别, 机器学习. 本文通信作者.
E-mail: qsliu@nuist.edu.cn
相关文章
[1]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200897?viewType=HTML
[2]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190256
[3]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190488
[4]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200238
[5]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c201018
[6]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190037
[7]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200184
[8]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190821
[9]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190182
[10]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180848
[11]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180054
[12]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200493
[13]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180436
[14]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c170691
[15]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180154
[16]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170505
[17]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c180152
[18]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150425
[19]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150725
[20]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150710