基于多阶运动参量的四旋翼无人机识别方法

引用本文
刘孙相与, 李贵涛, 詹亚锋, 高鹏. 基于多阶运动参量的四旋翼无人机识别方法. 自动化学报, 2022, 48(6): 1429-1447 doi: 10.16383/j.aas.c200862
Liu Sun-Xiang-Yu, Li Gui-Tao, Zhan Ya-Feng, Gao Peng. Drone detection based on multi-order kinematic parameters. Acta Automatica Sinica, 2022, 48(6): 1429-1447 doi: 10.16383/j.aas.c200862
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200862?viewType=HTML
文章简介
关键词
四旋翼无人机, 目标识别, 运动特征, 融合方法
摘
以小型多轴无人机为代表的低慢小目标, 通常难以被常规手段探测, 而此类目标又会严重威胁某些重要设施. 因此对该类目标的识别已经成为一个亟待解决的重要问题. 本文基于目标运动特征, 提出了一种无人机目标识别方法, 并揭示了二阶运动参量以及重力方向运动参量是无人机识别过程中的关键参数. 该方法首先提取候选目标的多阶运动参量, 建立梯度提升树(Gradient boosting decision tree, GBDT)和门控制循环单元(Gate recurrent unit, GRU)记忆神经网络分别完成短时和长期识别, 然后融合表观特征识别结果得到最终判别结果. 此外, 本文还建立了一个综合多尺度无人机数据集(Multi-scale UAV dataset, MUD), 本文所提出的方法在该数据集上相对于传统基于运动特征的方法, 其识别精度(Average precision, AP)提升103%, 融合方法提升26%.
引
“低慢小” (飞行高度低、飞行速度慢、目标小)目标以其难以被探测、便于隐藏、适用场景广泛的特点, 一直以来都是科研领域中的研究重点, 其中“低慢小”目标的探测识别更是相关课题中的核心和基础问题. 近年来, 四旋翼无人机为代表的新兴“低慢小”飞行器因其成本低廉、操纵简单、难以被发现的特点, 在航拍、探测、检测等多个领域被广泛应用. 但随之而来也带来诸多安全隐患, 无序飞行的“低慢小”无人机已经严重威胁到社会秩序和公共安全.
近年来, 人工智能和计算机视觉的发展, 使得基于图像/视频的小目标检测与识别方法的性能有了较大的提升, 成为研究此类问题的新手段. 相比于以往基于声谱特征、光谱特征、射频和雷达等方法, 基于机器视觉的方法具备系统简单、硬件体积小、场景普适性强、探测距离远、识别粒度细等优点. 基于机器视觉的“低慢小”目标识别方法主要包括表观特征方法、运动特征方法以及混合方法.
基于表观特征的方法, 如部件模型(Discriminatively-trained part model)、Faster RCNN神经网络、SSD(Single shot multibox detector)神经网络、积分通道(Integral channel)等在许多常见目标以及一些小目标识别任务中显著提升了识别精度. Zahangir等改进循环卷积神经网络, 融合Inception-V4和残差网络结构, 形成IRRCNN识别网络完成对输入图像的目标识别, 在多个数据集上, 如 CIFAR-10、CIFAR-100、TinyImageNet-200以及CU3D-100, 达到最佳识别精度. 对于无人机目标来说, Schumann等提出了采用Faster RCNN网络进行识别的方法, 并在其建立的数据集上进行训练, 识别鸟类和无人机两类目标, 在AVSS2017测试集上取得了最高精度; Saqib等测试了不同结构的卷积神经, 得出采用VGG16结构的FassterRCNN神经网络具备最高识别精度; Aker等提出了将鸟类和无人机在不同背景下合成的数据集生成方法, 用以训练无人机识别神经网络; Wu等提出通过将显著性方法引入至卡尔曼滤波器, 完成对运动小目标的跟踪和定位, 该方法对于四旋翼无人机的跟踪也具有较高精度. Carrio等在深度图中采用神经网络方法完成四旋翼无人机的识别, 并在Airsim飞行仿真软件中建立深度图数据集, 用以训练识别方法, 得到了其数据集上的最优识别精度. 但该方法对目标的表观和运动特征均未直接使用, 对于常见的识别场景适用性较差、识别精度相对较低.
基于运动特征的方法, 主要分为两类, 一类是基于背景减除; 另一类是基于流方法. 背景减除类方法的前提是假设相机不动或者仅有很小移动. 通过对背景进行建模, 从而达到仅在图像中留下前景目标的目的, 此类方法计算复杂度低、适用场景广泛, 但仅能在背景简单下具备足够精度; 流方法依赖于流向量的计算, 其适用于多目标场景、在复杂场景中也具备较高召回率, 但对于识别任务来说, 针对小目标或者复杂场景计算精度不足, 计算复杂度和虚景率也较高. 基于深度网络的光流提取方法提高了光流向量的计算精度, Dosovitskiy等提出FlowNet、FlowNet2.0等结构, 采用U-Net架构, 并融合多种网络结构, 取得了目前最优光流提取性能.
融合运动以及表观特征的方法, 目前多以深度网络 (Deep neural network, DNN)为基础框架, 主要包括卷积神经网络 (Convolutional neural network, CNN)和循环神经网络(Recurrent neural network, RNN). T-CNN (Tublet CNN)借用Faster RCNN中RPN (Region proposal network)的高效结构, 并提出Tubelet结构关联上下文特征, 即通过光流法得到的在连续多帧中同一目标识别矩形框, 并采用LSTM (Long short-term memory)网络作为分类器完成分类. 此方法能够抑制虚景目标, 提升正样本的识别概率, 但对于小目标召回率较低. DFF (Deep feature flow)使用基于深度网络框架的FlowNet方法提取光流特征, 通过目标运动过程联系上下帧并筛选关键帧, 节省了对非关键帧特征提取和识别的计算过程. Zhu等在像素级 (Pixel-level)融合通过FlowNet计算得到的光流区域的特征图, 融合相邻多个特征图并输入到最终的判别网络中. 与以上两个工作类似, 本文方法也采用了光流法提取上下帧目标的运动过程, 但并非综合运动过程中变化的外观特征, 而是重建目标运动过程中的运动学参数. Bertasius等引入可变尺寸卷积 (Deformable convolution)对上下帧中目标运动引入的额外特征进行融合, 而非采用光流联系上下帧. Luo等融合区域级特征 (Proposal-level)而非像素级, 其考虑候选区域内的语义特征, 并综合相邻两帧语义特征、位置特征以及时间特征完成识别, 并取得了ImageNet VID数据集中的最优性能. 以上方法主要以Faster RCNN或RPN为主要框架, 近年来, 以RNN为框架的方法在计算效率以及精度上也达到了较高水平, Xiao等利用ConvGRU结构融合时空特征, 在ImageNet VID数据集上, 曾取得最优性能. Chen等提出的基于ConvLSTM和SSD (Single shot multibox detector)网络结构, 并融合注意力机制的方法, 综合了多尺度的特征 (像素级和目标级), 是目前综合计算速度与精度的高性能方法. 本文方法也采用了LSTM (Gated recurrent unit, GRU)作为分类器, 但其输入为运动参量, 而非图像.
特别地, 对于“低慢小”目标的混合识别方法, Lv等通过融合时空两种特征, 完成了对弱小飞行器目标的探测; Shi等提出采用改进粒子滤波的方法探测低速飞行小目标, 对于海面背景的飞行器目标来说, 其相较与分型方法 (Fractal-based)和三特征方法 (Tri-feature-based)性能更佳. 对于无人机目标来说, Farhadi等提出将前景检测结合目标形状进行识别的方法, 在综合指标上, 取得了AVSS2017方法中第二高精度的性能. Sapkota等提出利用级联检测的思路, 识别无人机后利用混合高斯概率假设密度滤波器跟踪无人机飞行轨迹, 实现了两架无人机的实时跟踪. Rozantsev等融合了表观特征以及运动特征, 利用目标运动补偿来提高识别精度, 即通过决策树和卷积神经网络估计目标在像平面的运动, 进而采用卷积神经网络识别获得的图像立方体中的目标. 该方法在其提供的测试集中取得了目前最优结果. 但该方法未考虑多干扰目标和多类别的识别, 难以应用在实际场景中.
相较于以往工作, 与文献[15]相似, 本文方法也基于融合表观和运动特征的思想, 并采用了文献[6, 32-36]中所涉及到的光流法进行运动特征提取, 并利用文献[42-43, 47]等工作中提及的GRU网络完成目标判别. 但不同的是本文从运动学角度直接提取目标的运动特征, 而非仅采用运动特征辅助串联前后帧表观特征的提取. 并且本文采取决策融合的方式而非特征融合, 这样能针对性地充分考虑运动和表观两个不同维度的特征. 从算法适用条件及精度来说, 以往工作都在一定程度上实现了无人机的跟踪和目标的识别, 但基本都要求单一纯净背景下的单目标作为前提条件. 而对于低空干扰目标较多、背景较复杂这一现实约束, 这些方法均无法做到高精度识别. 此外, 以往工作均采用对常见物体识别使用的通用框架, 并未意识到无人机“低慢小”的特殊之处, 也未对此特点加以利用. 在构建相关实验数据集时, 也未考虑无人机的特征, 涵盖的飞行场景较少.
本文以典型四旋翼无人机探测为目标, 综合其表观和运动特征, 提出了一种基于目标多阶运动参量的识别方法 (Multi-order kinematic parameters based detection method, MoKiP). 本文中, 多阶运动参量是指一个运动参数的集合, 包括零阶运动参量(表观特征), 一阶运动参量(速度、角速度), 二阶运动参量(加速度、角加速度), 以及更高阶的运动参量.
如图1所示, 该方法的核心思想如下: 首先提取并跟踪运动候选区域, 并估计候选区域的深度信息, 然后计算出相应的非零阶运动参量, 之后, 采用梯度提升决策树以及记忆神经网络完成基于运动特征的短期和长期识别. 同步地, 采用Faster RCNN深度网络对零阶运动参量(表观特征)进行识别. 最后, 将零阶和非零阶两部分识别结果, 按照识别概率加权平均融合, 得到最终的判别结果和类别概率.

图 1
实验证明, 在目标像素较少、背景复杂以及干扰目标较多的情况下, 相比于以往方法, 本文提出的方法具有更高的识别精度. 此外, 通过灵敏度分析, 本文进一步定量分析了各阶运动参量对识别精度的贡献程度, 并发现二阶参量、重力方向参量是识别过程中影响较大的重要特征.
本文的主要贡献如下:
1) 提出基于多阶运动参量的“低慢小”识别方法. 较好地处理了低空、复杂背景以及多目标场景下的识别问题.
2) 发现了二阶运动参量以及沿重力方向的运动参量最能反映无人机与其他干扰目标在运动特征上的差异.
3) 建立了多尺度无人机数据集. 包含四旋翼无人机以及行人、车辆、鸟类等干扰目标的相关数据. 并为其它干扰目标进行了数据采集和标定.

图

图 12
作者简介
刘孙相与
清华大学航天航空学院博士研究生. 主要研究方向为目标识别, 目标重建.
E-mail: lsxy_qd@126.com
李贵涛
清华大学航天航空学院副教授. 主要研究方向为计算机视觉, 大系统仿真,
数据可视化.
E-mail: ligt@tsinghua.edu.cn
詹亚锋
清华大学信息国家研究中心教授. 主要研究方向为微弱信号探测和飞行器测控.
E-mail: zhanyf@tsinghua.edu.cn
高
北京大学工学院博士后. 主要研究方向为目标识别, 目标重建, 计算机体系结构. 本文通信作者.
E-mail: gaopeng1982@pku.edu.cn
相关文章
[1]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170190?viewType=HTML
[2]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2009.00509?viewType=HTML
[3]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190278?viewType=HTML
[4]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2013.02021?viewType=HTML
[5]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c180188?viewType=HTML
[6]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190763?viewType=HTML
[7]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180146?viewType=HTML
[8]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200021?viewType=HTML
[9]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180228?viewType=HTML
[10]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170413?viewType=HTML
[11]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160175?viewType=HTML
[12]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150425?viewType=HTML
[13]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150207?viewType=HTML
[14]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.01391?viewType=HTML
[15]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.00348?viewType=HTML
[16]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.02862?viewType=HTML
[17]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2013.00834?viewType=HTML
[18]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2012.01298?viewType=HTML
[19]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.01455?viewType=HTML
[20]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2010.00465?viewType=HTML
[21]
http://www.aas.net.cn/cn/article/doi/10.1360/aas-007-0084?viewType=HTML
[22]
http://www.aas.net.cn/cn/article/id/16375?viewType=HTML
[23]
http://www.aas.net.cn/cn/article/id/17158?viewType=HTML
[24]
http://www.aas.net.cn/cn/article/id/14067?viewType=HTML
[25]
http://www.aas.net.cn/cn/article/id/14226?viewType=HTML