点击数: 更新日期: 2024-06-17
论文题目:HR-YOLO:融合高分辨率网络和YOLOv5的合规性检测方法
录用期刊:Electronics (中科院SCI 3区,JCR Q2)
原文DOI:https://doi.org/10.3390/electronics13122271
作者列表:
1) 连远锋 中国石油大学(北京)信息科学与工程学院/人工智能学院 计算机系教师
2) 李 璟 中国石油大学(北京)信息科学与工程学院/人工智能学院 计算机技术专业 硕22
4) 董绍华 中国石油大学(北京)安全与海洋工程学院 安全工程系教师
5) 李兴涛 中国石油国际勘探开发有限公司 高级工程师
摘要:
自动合规性检测对保障安全生产具有重要意义。然而,由于环境复杂、光照条件差、目标尺寸小等原因,合规性检测的准确性受到挑战。本文提出一种新颖高效的深度学习框架HR-YOLO用于安全帽合规性佩戴检测方法。该框架从安全帽物体特征和人体姿态特征两方面综合安全帽佩戴信息。HR-YOLO可以使用两个分支的特征,使抑制预测的边界框对小目标更准确。然后,为了进一步提高模型的迭代效率和精度,使用优化的供能随机梯度下降(OP-SGD)设计了一个优化的残差网络结构。此外,设计拉普拉斯感知注意力模型(LAAM),使YOLOv5解码器更加关注来自人体姿态的特征信息,抑制无关特征的干扰,从而增强网络表征。最后,提出非极大值抑制投票(PA-NMS voting),利用姿态信息约束边界框的置信度,并通过改进的投票过程选择最优边界框,以提高对被遮挡目标的检测精度。实验结果表明,提出的安全帽检测网络性能优于其他方法,在应用场景中具有实用价值。与其他算法相比,所提算法在准确率、召回率和mAP上分别平均提高了7.27%、5.46%和7.3%
背景与动机:
合规性佩戴检测是计算机视觉的一个重要任务,已广泛应用于各个领域,如交通监控、智慧城市、建筑安全等。安全帽合规性佩戴检测方法主要可分为传统的估计方法和基于深度学习的估计方法。早期传统安全帽检测方法往往采用需要人工检测且耗时较长,估计结果精度较低,鲁棒性较差。近年来,利用卷积神经网络强大的特征提取能力,采用深度学习的方法来检测安全帽佩戴状态。虽然已经取得了显著的改进,但由于以上安全帽检测方法忽视了在检测过程中的人体姿态信息,导致在复杂工业场景下受遮挡和背景混淆的安全帽难以被正确识别,使得在工业场景下的安全帽检测应用难以获得良好的结果。
主要内容:
为了实现多尺度目标检测,构建了一个多分支并行融合网络HR-YOLO,如图1所示。原始图像大小为640 × 640 × 3,首先通过主干部分提取初步特征信息。这些特征传递给ODB,由ODB进一步提取和过滤特征,使用LAAM进行头盔目标检测。同时,PDB从初步特征中提取人体姿态特征,确定头部区域信息。最后,PA-NMS投票利用头盔物体特征和头部区域信息选择置信度和可靠性更高的边界框。通过这4种改进,HR-YOLO有效地识别小目标,并对安全帽佩戴进行合规性检测。
图1 HR-YOLO网络结构
实验结果及分析:
为了定量分析所提方法与其他方法的检测性能,在表1中给出了GDUT-HWD数据集上各项指标的实验结果。对比包括SSD、R-SSD、Faster RCNN、YOLOv3、YOLOv3-tiny、YOLOv4、YOLOv5s、YOLOv7s、YOLOv8s。以平均精度均值(mAP)评价指标为例,与其他方法相比,所提方法在5个类别中均取得了较高的检测精度。同时,在评估精度和F1分数时,所提出的方法与其他方法相比也在不同识别类别中提高了检测精度。如表2所示,在SHWD数据集上,当IoU阈值设置为0.5时,所提方法的检测准确率达到96.1%。在帽子类别和人类别上的准确率分别达到97.4%和94.9%。当IoU阈值在0.5 ~ 0.95之间时,mAP达到65.4%,比YOLOv5s提高了4.3%。为了进一步验证HR-YOLO的鲁棒性,在CUMT-HelmeT数据集上与SSD、Faster RCNN、YOLOv3、YOLOv5s、YOLOv7和YOLOv8s不同方法进行了对比实验。表3列出了不同方法的precision、recall、F1、mAP、Params和GFLOPs的值。从表中可以看出,与其他六种方法相比,我们的方法表现出最高的准确率、召回率、F1值、mAP@0.5和mAP@0.5:0.95。此外,在precision、recall、F1、mAP@0.5和map@0.5:0.95值上,与YOLOv5的结果相比,分别达到了3.8%、6.1%、5.1%、5.6%和7.7%的提升。
表1 在GDUT-HWD数据集上的实验比较结果
表2 在SHWD数据集上的实验比较结果
表3 在CUMT-HelmeT数据集上的实验比较结果
如图2所示,在人群密集、背景复杂、目标被遮挡的图像中,HR-YOLO可以很好地检测目标。同样,所提算法在夜间光照不足的图像中仍能准确、鲁棒地检测出目标。
图2 SHWDSHWD数据集上的检测结果示例
从图3可以看出,在来自加油站的安全帽数据集中,HR-YOLO对于小目标、复杂工业背景等情况仍然能够准确地检测佩戴合规性。
图3 加油站数据集上的检测结果示例
在CUMT-HelmeT数据集上的对比目标检测结果如图4所示,所选原始图像在小目标和多目标检测以及光照条件较差的情况下都存在挑战。从图中可以看出,本文方法在安全帽检测方面取得了比对比方法更好的结果。
图4 CUMT-HelmeT数据集上的检测结果
为了验证所提出的安全帽检测方法的实用性,将HR-YOLO应用于四足机器人巡检系统,如图5所示。
图5 四足机器人巡检系统
表4比较了不同方法得到的四足机器人系统头盔检测分类结果。文件夹大小是指所有配置文件的总大小,使四足机器人系统能够独立运行检测程序。HR-YOLO的测试精度和FPS最高,同时其文件夹大小仍在可接受范围内。
表4 在四足机器狗上运行的实验比较结果
图6展示了HR-YOLO在室内场景中的应用。在加油站,工人经常在密集的管道附近工作,部分设备的形状类似于安全帽。实验结果表明,该方法能够有效地检测出复杂室内场景下安全帽佩戴情况。
图6 HR-YOLO在室内场景中检测结果
图7展示了HR-YOLO在户外场景中的应用。由此可见,所提方法能够准确检测工人是否佩戴安全帽。四足机器人可以接收HR-YOLO的检测信息,并将信息传递给未正确佩戴头盔的工人。
图7 HR-YOLO在室外场景中检测结果
结论:
针对实际应用中安全帽检测任务的需求,本文提出一种基于PA-NMS的网络HR-YOLO,从安全帽物体特征和人体姿态特征中综合安全帽佩戴信息。为了克服目标尺寸较小导致的检测精度下降问题,我们设计OP-SGD来提高网络的表达能力。然后,提出了LAAM,使YOLOv5解码器更多地关注来自人体姿态的特征信息,以增强网络表征并抑制无关特征的干扰。此外,本文提出了一种新的后处理算法PA-NMS voting,该算法利用基于位姿信息约束的抑制算法来确定边界框的置信度,并利用投票操作来获得新的最优边界框。最后,将HR-YOLO与其他主流目标检测方法进行对比,并设计消融实验对所提方法的性能进行评估。实验结果表明,HR-YOLO在安全帽佩戴检测任务中优于其他算法,在面对不同噪声条件、光照变化和遮挡程度时具有良好的鲁棒性。实验结果也表明了所提方法在各种应用中的实用价值。
未来,我们将重点探索如何进一步优化网络结构,纳入多任务输出分支,增强网络对多样化多模态信息的检测能力。此外,我们将进一步减少计算/内存成本,改善训练不稳定性,并支持高效的分布式训练,以应对大规模应用中的可扩展性问题。
作者简介:
连远锋,教授,硕士生导师。研究方向为图像处理与虚拟现实、机器视觉与机器人、深度学习与数字孪生。