当前位置: 主页 > 学术动态 >

基于粒子群优化对比学习和多模态纠缠图卷积的头部姿态估计

点击数:   更新日期: 2024-06-05

论文题目:基于粒子群优化对比学习和多模态纠缠图卷积的头部姿态估计

录用期刊IET Image Processing (中科院SCI 4, JCR Q3)

录用时间:202463

作者列表

1 连远锋 中国石油大学(北京)信息科学与工程学院/人工智能学院 计算智能教学与研究中心教师

2) 师印亮 中国石油大学(北京)信息科学与工程学院/人工智能学院 人工智能专业 硕22

3) 刘兆年 中海油研究总院有限责任公司 高级工程师

4) 姜 彬 中海油研究总院有限责任公司 高级工程师

5) 李兴涛 中国石油国际勘探开发有限公司 高级工程师

摘要:

由于从二维特征空间到三维姿态空间的非线性映射的复杂性,头部姿态估计是一项特别具有挑战性的任务。为了解决上述问题,本文提出了一种基于粒子群优化对比学习(PSO-CL)和多模态纠缠态图卷积网络(MEGCN)的高效头部姿态估计框架。首先,提出了一种新的二维关键点检测网络——区域和差分感知特征金字塔网络(RD-FPN),以减轻背景干扰,增强特征表达能力。然后,构造PSO-CL交替匹配二维和三维关键点,以多模态关键点匹配精度作为优化目标,同时考虑对比学习的交叉模态正、负样本对的相似性作为局部对比约束。最后,设计MEGCN网络并嵌入二阶双线性注意来增强关键点与头部姿态角度之间几何关系的表达能力,引入点-边注意来改进多模态关键点之间的几何特征的表示。在300W-LPAFLW2000BIWI数据集上,与其他方法相比,我们的方法的平均误差降低了8.23%,表明本文方法的准确性、泛化性和效率。

背景与动机:

头部姿态估计是计算机视觉的一个重要任务,已广泛应用于各个领域,如人机交互、视频监控、虚拟现实、面部表情识别,凝视估计和行为理解等。头部姿态估计方法主要可分为传统的估计方法和基于深度学习的估计方法。早期传统估计方法往往采用外观模板方法,估计结果精度较低,鲁棒性较差。近年来,利用卷积神经网络强大的特征提取能力,采用深度学习的方法来估计头部姿态。虽然已经取得了显著的改进,但由于图像中二维和三维的相互关系信息挖掘难度大,导致两者之间的精确映射关系难以建立,使得从二维空间到三维姿态的估计难以获得良好的结果。

主要内容:

模型结构

头部姿态估计网络的结构框架如图1所示。首先,将图像输入到RD-FPN中,生成关键点热图。采用基于积分回归的方法提取二维关键点,通过三维人脸重建模型3DFRM,利用二维关键点信息生成初始的三维人脸点云模型。其次,设计了基于粒子群优化PSO-CL的对比学习方法,用于二维和三维关键点位置的交互匹配。最后,提出了一个基于二阶双线性注意的多模态纠缠图卷积网络MEGCN来纠缠二维和三维关键点特征。将纠缠特征输入到全连接层中,获得头部姿态角。


1 头部姿态估计网络的结构框架


为了提高二维和三维关键点的匹配精度,提出了一种基于粒子群优化的对比学习交互匹配算法PSO-CL,如图2所示。为了避免通过对比学习陷入局部最优,同时提供有效的局部交互特征,这里充分利用PSO在非线性空间中的全局搜索能力来探索最优匹配参数。


2 基于粒子群优化的对比学习交互匹配算法


由于难以捕获多模态特征之间的相关性,我们提出了一种基于二阶双线性注意的多模态纠缠图卷积网络MEGCN,如图3所示。MEGCN可以有效地集成这两种多模态信息,通过多模态全局特征交互块在不同模态之间传输信息,并通过局部特征纠缠块将多模态全局交互信息整合到当前的局部图中。同时,引入点边缘注意,以提高局部特征表达能力。


3 基于二阶双线性注意的多模态纠缠图卷积网络

实验结果及分析:

为了定量地评估我们的方法的准确性,表1和表2显示了最先进的方法和我们的方法与AFLW2000BIWI数据集的MAE。粗体表示每一列中的最小值。结果表明,我们建立的关键点和头部姿态之间的非线性关系更稳健。在BIWI-train数据集上重新训练该模型,并在BIWI-test数据集上进行测试。实验结果见表3,表明所提模型的性能最优。可以看到,本文模型在所有数据集上都达到了最低的总体MAE,并且在单个数据集上也表现良好。


1 AFLW2000数据集上的实验比较结果

(所有模型均在300W-LP训练集上进行训练)

2 BIWI数据集上的实验比较结果

(所有模型均在300W-LP训练集上进行训练)


3 BIWI数据集上的实验比较结果

BIWI数据中70%数据作为训练集,30%作为测试集)


图4可视化了BIWI数据集上的二维和三维关键点的匹配结果。结果表明,该模型对不同角度的关键点匹配具有很强的鲁棒性。



4 BIWI数据集的二维和三维关键点匹配的示例


5显示了不同方法在AFLW20002000BIWIBIWI-test数据集上的结果。可以看出,本文模型能够合理地估计各种头部姿态。


5 AFLW20002000BIWIBIWI-test数据集上实验结果

结论:

本文提出了一种新的具有区域和差分感知机制的特征金字塔网络,从RGB人脸图像中检测二维关键点,以提供平面信息,进而提高三维人脸重建的质量。在此基础上,构建粒子群优化的对比学习,通过二维和三维关键点的交替匹配,实现跨模态关键点重定位,将粒子群优化的全局搜索能力与对比学习的局部特征交互能力相结合,获得鲁棒结果。最后,提出了二阶双线性注意图卷积来纠缠多模态特征,利用多模态信息的互补性来增强面脸关键点的几何分布与头部姿态角度之间关系的探索能力。

虽然我们已经显著提高了该方法的评估精度,但在实际应用中仍有一些局限性,特别是在极具挑战性的条件下捕获的头部姿势。由于大模型显著的视觉理解能力和强大的特征表示能力,未来将尝试将大型视觉模型应用于头部姿态估计。

作者简介:

连远锋,教授,硕士生导师。研究方向为图像处理与虚拟现实、机器视觉与机器人、深度学习与数字孪生。