点击数: 更新日期: 2023-04-14
中文题目:基于形状感知和语义排序的快速点云目标检测
论文题目:SFSS-Net:Shape-awared Filter and Sematic-ranked Sampler for voxel-based 3D Object Detection
录用期刊/会议:Neural Computing and Applications (JCR,Q2)
原文DOI:【10.1007/s00521-023-08382-7】
原文链接:https://trebuchet.public.springernature.app/get_content/98eb7270-e302-4efc-9da0-9623e151b090
录用/见刊时间:2023.2.13
作者列表:
1) 朱丽萍 中国石油大学(北京)信息科学与工程学院 计算机系 教师
2) 陈 哲 中国石油大学(北京)信息科学与工程学院 硕20
3) 王丙垚 中国石油大学(北京)信息科学与工程学院 硕19
4) 田港一 中国石油大学(北京)信息科学与工程学院 硕19
5) 季来虎 中国石油大学(北京)信息科学与工程学院 硕20
背景与动机:
三维点云目标检测是指在稀疏的点云场景中,识别所有感兴趣的目标并获取其位置和类别。三维点云目标检测在机器人、虚拟现实以及自动驾驶等领域有重要的科研和应用价值。
现流行的基于体素的点云目标检测方法存在以下三个问题:(1)点云中存在大量与目标无关的背景点(如图1黑色虚线框所示),网络参数量和计算复杂度较高,导致检测速度慢,应用较为困难;(2)在点云转体素过程中,随机下采样会丢失一部分前景点(如图1的蓝色虚线框所示),丢失目标关键信息,导致模型检测准确率较低;(3)模型预测结果与真实结果方向相反(如图1绿色虚线框所示),仅在边界盒的位置、大小和方向三个维度累积损失,难以评价预测结果与真实边界盒的差异。
图1 基于体素的点云目标检测方法的问题简图
设计与实现:
为此,本文提出一种基于体素的快速点云目标检测网络(SFSS-Net),其中基于形状感知的过滤器(Shape-awared Filter, SAF)能够有效地去除输入检测模块点云的大量背景点,基于语义排序的采样器(Semantic-ranked Sampler, SRS)在点云体素化过程中保留前景点。此外,本文提出了基于余弦距离的角度预测损失函数与基于对角距离的边界盒预测损失函数,前者避免模型预测反向,后者帮助模型对齐预测边界盒与真实值。整体框架图如图2所示。
图2 SFSS-Net的整体架构
为了加快模型的检测速度,在原始点云被送入模型检测目标之前,先经过本文提出的SAF点云下采样模块。该模块采用生成式随机均匀采样方法,下采样出若干尺度相同的子点云;此外本文设计一个特征提取模块,以充分学习目标形状特征与轮廓特征,利于后续判别器区分前景点云与背景点云。此外,本文还考虑局部上下文关系,聚合点云的局部信息,提高子点云的可判别性。子点云经过SAF后被分类为前景点云与背景点云,而所有的背景点云则会被舍弃。
为了提高模型的检测准确率,点云体素化中的随机下采样被替换为本文提出的SRS模块。首先,点云空间被均匀分割为若干大小相同的体素,其中饱和体素中的点会被输入SRS模块提取体素的高维空间特征。为了让体素的高维空间特征更具有判别性,SRS根据语义分数,保留排名靠前的点特征,最后利用最大池化获取代表体素全局信息的高维空间特征。
图3 余弦距离损失曲线
原方法采用的正弦距离损失与角度朝向分类器的方式预测目标的水平偏转角,但该办法容易出现预测反向,降低模型预测精度。本文提出余弦距离损失的方法,增大了预测值与真实值反向时的损失值,加大模型预测反向的代价,损失变化曲线如图3。此外,原方法衡量模型预测边界盒与真实值的差异时,仅在尺寸、位置、方向上计算误差并累积,无法较好评价预测与真实的接近程度。本文在空间交并比的基础上,提出了基于中心对角距离比的损失方法。如图4,绿色为真实边界盒,红色为预测边界盒。中心对角距离比为两个边界盒中心距离与刚好包围两个边界盒的与坐标轴对齐的最小矩形框对角线距离的比值。
图4 中心对角距离示意图
实验结果及分析:
在KITTI数据集上地表现如表1所示,SFSS-Net能够快速、高质量地完成点云目标检测。通过结果主要有以下三点观察:
SFSS-Net比起原方法,在时间消耗上有所降低,其中:以SECOND为主干网络的方法时间消耗减少了19ms,以PDV为主干网路的方法时间消耗减少了44ms,证明SAF能够有效降低输入的背景点数量,从而加快网络推理。
比起原方法,在平均检测精度上有所提升,证明SRS与中心对角距离比损失的有效性。SRS在下采样中保留更多前景点特征,为后续目标检测提供帮助,而中心对角距离比损失能够有效衡量预测与真实的差距,帮助模型更好对齐。
比起原方法,在平均角度相似性上有所提升,证明基于余弦距离损失的有效性。
表1 KITTI数据集上与SOTA方法的性能比较
结论:
本文提出一种用于基于体素的目标检测检测网络SFSS-Net。通过设计的背景点过滤模块,充分利用了目标的形状与轮廓信息,有效地过滤了大量背景点,加快模型推理速度。此外,还设计了基于语义排序的体素下采样模块,有效提高了点云空间中目标的判别性。最后,还引入了中心对角距离比损失与余弦距离损失。在KITTI数据集上的实验结果表明,SFSS-Net能够快速且准确地在点云数据上完成目标检测,为实现室外场景下的实时点云目标检测提供一定参考价值。
作者简介:
朱丽萍,博士
中国石油大学(北京)计算机系副教授,硕士生导师。目前主要研究方向是大数据和数据挖掘方向,尤其关注深度学习在计算机视觉方向上的应用,已发表论文多篇高水平论文。