基于DDPG的三维重建模糊概率点推理

引用本文
李雷, 徐浩, 吴素萍. 基于DDPG的三维重建模糊概率点推理. 自动化学报, 2022, 48(4): 1105−1118 doi: 10.16383/j.aas.c200543
Li Lei, Xu Hao, Wu Su-Ping. Fuzzy
probability points reasoning for 3D reconstruction via deep
deterministic policy gradient. Acta Automatica Sinica, 2022, 48(4):
1105−1118 doi: 10.16383/j.aas.c200543
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200543?viewType=HTML
文章简介
关键词
三维重建, 强化学习, 深度学习, 注意力机制, 信息聚合
摘
单视图物体三维重建是一个长期存在的具有挑战性的问题. 为了解决具有复杂拓扑结构的物体以及一些高保真度的表面细节信息仍然难以准确进行恢复的问题, 本文提出了一种基于深度强化学习算法深度确定性策略梯度 (Deep deterministic policy gradient, DDPG)的方法对三维重建中模糊概率点进行再推理, 实现了具有高保真和丰富细节的单视图三维重建. 本文的方法是端到端的, 包括以下四个部分: 拟合物体三维形状的动态分支代偿网络的学习过程, 聚合模糊概率点周围点的邻域路由机制, 注意力机制引导的信息聚合和基于深度强化学习算法的模糊概率调整. 本文在公开的大规模三维形状数据集上进行了大量的实验证明了本文方法的正确性和有效性. 本文提出的方法结合了强化学习和深度学习, 聚合了模糊概率点周围的局部信息和图像全局信息, 从而有效地提升了模型对复杂拓扑结构和高保真度的细节信息的重建能力.
引
单视图三维重建是图像理解和计算机视觉的一个基本问题, 并在机器人、自动驾驶、虚拟现实和增强现实中有着广泛的应用. 近年来, 基于深度学习的单视图三维重建得到了广泛的应用. 相比于传统的三维重建方法, 学习模型能够更好地对输入信息进行编码以防止输入信息的歧义.现有基于深度学习的三维重建分为多视图和单视图重建, 前者先利用深度网络提取到的特征信息进行立体匹配并预测深度图, 再利用深度图融合技术构建三维模型. 后者则通过使用神经网络强大的特征捕获能力从输入图像中捕获特征信息, 之后结合从海量训练数据中学习到的形状先验知识信息进行三维重建. 具体来说, 基于深度学习的单视图三维重建根据三维形状输出表示形式可以分为以下三种:
1) 基于体素的表示形式, 如图1(a)所示, 现有工作使用编码网络捕获输入的物体图片的形状属性信息 (物体拓扑结构以及几何、轮廓、纹理等信息) 并将这些低层级信息编码为不同尺度下的高层级表示形式, 之后使用解码网络将三维几何外形表示为三维体素块上的二值概率分布S={(P_1,,P_n×n×n)}, 最后通过计算网络预测的二值概率分布和真实二值概率分布之间的交叉熵来约束网络学习, 即利用网络学习二维图像到三维体素块上二值概率分布的映射关系来表达三维几何外形.

图
2) 基于点云的表示形式, 如图1(b)所示, 现有工作使用编码网络捕获输入的物体图片的形状属性信息,之后使用解码网络将三维几何外形表示为无序点云S={(x_i,y_i,z_i)^N_i=1}最后通过计算预测的点云三维坐标和真实点云三维坐标之间的倒角距离等指标来约束网络学习, 即利用网络学习二维图像到无序三维点集S的映射关系来表示物体三维形状.
3) 基于网格的表示形式, 如图1(c)所示, 现有工作首先使用卷积神经网络提取输入的物体图片的特征信息, 之后使用图卷积网络结合提取特征和初始化的网格模板对初始化模板进行网格变形生成目标三维模型, 最后通过计算预测网格的信息 (点坐标、边长等) 和真实网格信息之间的误差来约束网络学习, 即利用网络学习二维图像到三维网格的映射关系来表示物体三维形状.
在网络学习过程中, 现有方法都使用反向传播算法通过监督信息来约束编解码网络进行学习, 即通过反向传播使神经网络拟合一个复杂的映射函数. 本质上,基于深度学习的单视图三维重建方法使用合适的神经网络N来实现从输入图像I到输出Y的连续映射函数逼近, 即对任意ε>0,x∈I;|N(x)−Y|<ε.
大部分基于深度学习的单视图三维重建工作都使用基于卷积神经网络的编解码器架构, 即三维重建任务通常采用2D卷积神经网络对二维输入图像进行编码, 再根据任务需要的表示形式, 使用不同的解码器生成不同的表示形式. 例如, 如果使用体素作为最终表示, 则使用3D反卷积神经网络作为解码器.
根据重建后的三维形状输出表示形式,一些工作基于网格进行三维形状重建. 因为这些方法只能通过使用同类形状模板进行变形, 所以上述方法只能重建出具有简单拓扑的物体, 并且容易出现网格自交叉. 总的来说, 由于没有明确和可靠的方法生成有效的网格, 所以基于网格的三维重建工作面临着巨大的挑战. 一些工作基于体素和点云来进行三维形状重建, 但由于占用内存过高只能处理小批量数据和采用低分辨率来表示. 为了解决上述问题, Mescheder等提出了由连续函数定义一个3D空间, 并通过神经网络拟合的函数来描述这样的隐式形状, 并使用2D图像X和位置P∈R^3来推断对应位置PP的占用情况. 即使用神经网络拟合映射函数R^3×X→[0,1]. 该方法有效地减少了训练时占用的内存和训练时间, 但由于物体三维形状是由分类器或回归模型的权值来表示, 所以这些方法忽略了一些低级的形状信息. 总的来说, 现有的单视图三维重建方法存在以下挑战性问题: 1) 难以准确地重建具有复杂拓扑结构的物体三维形状. 2) 难以准确地重建局部细节特征从而生成高保真输出. 3) 先前的工作都是在合成数据上进行训练, 但在真实数据上进行测试时, 就会出现领域自适应问题. 因此, 一些复杂拓扑结构的连接处和局部细节的位置点占用概率往往难以准确的预测, 本文称这些难以准确预测的点为模糊概率点.
为了解决上述的挑战性问题, 本文通过深度强化学习算法DDPG来训练智能, 并不断地调整这些模糊概率点的占用概率并使其跳出概率模糊区间P∈[0.4,0.6]. 具体来说, 受到 Li 等的启发, 本文首先通过动态分支代偿网络生成了更多样化的特征表示并得到预测结果, 之后通过预测结果找到模糊概率点后聚合模糊概率点周边的局部信息和全局图像信息, 再通过DDPG训练的智能体调整这些模糊概率点, 使其达到到最佳的占用概率. 本文给出了本文方法在真实图像上进行三维重建的结果, 如图2所示. 本文的主要贡献如下:

图
1) 本文使用动态分支代偿网络来使得模型从输入图像中捕捉到更多样化的特征信息以提高模型的泛化能力.
2) 本文考虑到了局部信息对位置点占用概率预测的影响并使用了注意力机制引导的信息聚合机制聚合了局部信息和全局图像信息.
3) 本文使用深度强化学习算法DDPG训练的智能体对模糊概率点的占用概率进行了再推理.
4) 大量定量、定性和消融实验证明了本文的方法在公开的大规模三维物体数据集ShapeNet上的评估相比最先进的方法都有相应的提升.

图
作者简介
李
宁夏大学信息工程学院硕士研究生. 主要研究方向为三维物体重建, 人脸重建以及关键点对齐, 图像处理和计算机视觉与模式识别.
E-mail: lliicnxu@163.com
徐
宁夏大学信息工程学院硕士研究生. 主要研究方向为计算机视觉和三维人体姿态估计.
E-mail: hao_xu321@163.com
吴素萍
宁夏大学信息工程学院教授. 主要研究方向为三维重建, 计算机视觉, 模式识别, 并行分布处理与大数据. 本文通信作者.
E-mail: pswuu@nxu.edu.cn
相关文章
[1]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c170502?viewType=HTML
[2]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180155?viewType=HTML
[3]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210555?viewType=HTML
[4]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190859?viewType=HTML
[5]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190853?viewType=HTML
[6]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190348?viewType=HTML
[7]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210166?viewType=HTML
[8]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210430?viewType=HTML
[9]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190041?viewType=HTML
[10]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180372?viewType=HTML
[11]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200159?viewType=HTML
[12]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200035?viewType=HTML
[13]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180685?viewType=HTML
[14]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c180236?viewType=HTML
[15]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170481?viewType=HTML
[16]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c150634?viewType=HTML
[17]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.y000003?viewType=HTML
[18]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2013.00834?viewType=HTML
[19]
[20]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.00044?viewType=HTML
[21]
http://www.aas.net.cn/cn/article/id/16352?viewType=HTML
[22]
http://www.aas.net.cn/cn/article/id/17174?viewType=HTML