融合卷积CR-FFD与偏置Transformer胶囊网络的单视图三维物体重建-科研动态-中国石油大学（北京）人工智能学院

学校主页

您所在的位置：首页 - 科学研究 - 科研动态

科研动态

融合卷积CR-FFD与偏置Transformer胶囊网络的单视图三维物体重建

日期：2024-04-30 | 访问量：

论文题目：融合卷积CR-FFD与偏置Transformer胶囊网络的单视图三维物体重建
录用期刊：计算机辅助设计与图形学学报 (CCF A)

作者列表：

1）连远锋中国石油大学（北京）信息科学与工程学院/人工智能学院计算机系教师

2）赵泽欣中国石油大学（北京）信息科学与工程学院/人工智能学院计算机科学与技术专业硕22

摘要:

针对复杂拓扑结构物体单视图三维重建过程中二维图像与三维形状之间难以准确映射的问题，提出一种融合卷积Catmull-Rom样条自由形变(CR-FFD)与偏置Transformer胶囊网络的单视图三维重建方法。首先通过Catmull-Rom样条基函数对点云模型控制点进行插值，保持点云模型形变局部拓扑结构的一致性；然后提出卷积神经网络最小二乘求逆解法，通过非线性参数映射加速求解过程；最后设计偏置注意力Transformer胶囊网络增强局部特征表达能力，捕获点云形状的细粒度特征。实验结果表明，在ShapeNet数据集上，所提方法的EMD指标平均值为3.84，CD指标平均值为3.71；在Pix3D数据集上，EMD指标平均值为5.51，CD指标平均值为5.39；与已有的单视图点云三维重建方法相比，该方法有效地提升单视图的三维重建结果，能够从不同角度保持重建的一致性。

背景与动机:

近年来，随着深度学习和图像处理技术的飞速发展，单视图三维模型重建技术得到广泛关注。由于单视图存在自遮挡问题，无法充分表达图像的上下文信息，因此基于点云的单视图三维物体重建极具挑战性。传统的面向点云的单视图三维重建算法根据图像表观特征恢复物体空间结构，对图像的质量要求较高，并且存在时间复杂度高、重建结果不精确等问题。与传统方法相比，基于深度学习的方法能够快速提取输入图像的细节特征并推理空间几何结构，实现高效的三维重建，但仍存在对图像局部信息利用的不够充分导致重建结果不精确的局限性。

设计与实现:

本文提出一种融合卷积CR-FFD(Catmull-Rom splines based FFD)与偏置Transformer胶囊网络的单视图三维物体重建方法。首先将Catmull-Rom样条与FFD结合提出CR-FFD方法，通过Catmull-Rom样条基函数对点云模型控制点进行插值，以保持形变过程的拓扑结构一致性；然后提出基于卷积神经网络(convolutional neural networks, CNN)的最小二乘求逆解法加速CR-FFD的求解过程；为了增强网络的局部特征表达能力，将偏置注意力(offset-attention, OA)与基于Transformer的胶囊网络结合，提出偏置Transformer胶囊网络，通过OA捕获点云形状的细粒度特征以保持二维图像与三维模型的空间结构一致性。

主要内容:

本文方法的结构如图1所示，包括控制点生成网络、卷积CR-FFD模型和偏置Transformer胶囊网络局部点云形变模块。首先将单幅图像输入到控制点生成网络获得三维模型的控制点；然后利用卷积CR-FFD模型对模板模型进行调整；最后利用偏置Transformer胶囊网络对局部点云进行调整，得到最终的三维点云重建结果。

图1 系统网络结构

实验结果及分析:

图2 本文三维重建结果与 PSGN 等方法对比

在Airplane和Bench数据集上，与PSGN，VGG-Pixel2Mesh和DISN这3种方法进行对比，结果如图2所示。可以看出，本文方法在Airplane数据集上的重建结果与VGG-Pixel2Mesh相近，优于其他2种方法，均取得较好的重建效果。但本文方法重建结果的噪声更少，点云分布更加均匀，更加贴近真实形状；在有孔洞的Bench模型上，本文方法的重建结果明显优于其他方法，证明该方法具有较好的鲁棒性。

图3为部分真实场景图像的三维重建结果。可以看出，本文方法对于双层结构的桌子、椅子等复杂结构的重建细节更加准确，能够有效地保持点云模型形变局部拓扑结构的一致性。

图3 本文方法真实场景三维重建效果

结论:

本文提出一种融合卷积CR-FFD与偏置Transformer胶囊网络的点云三维重建方法。为实现高质量的三维点云重建模型，通过Catmull-Rom样条基函数对点云模型控制点进行插值，保持点云模型形变局部拓扑结构的一致性，并使用卷积神经网络最小二乘求逆解法加速求解过程。在此基础上，将基于偏置注意力的Transformer编码器模块和球邻域模型嵌入胶囊网络，增强局部特征表达能力以捕获点云形状的细粒度特征。实验结果表明，本文方法有效地提升单视图的三维重建结果，具有较强的鲁棒性。未来将结合隐表达方式描述三维模型拓扑结构，实现更高质量的重建效果；同时，进一步优化网络结构，实现重建质量与模型性能之间的平衡。

作者简介:

连远锋，教授，硕士生导师。研究方向为图像处理与虚拟现实、机器视觉与机器人、深度学习与数字孪生。