中文题目:高效的两轮车违法驾驶行为检测模型
论文题目:Efficient Detection Model of Illegal Driving Behavior in Two-Wheeled Vehicles
录用期刊/会议:The 2024 Twentieth International Conference on Intelligent Computing (CCF C类会议)
作者列表:
1) 祝留宇 中国石油大学(北京)人工智能学院 计算机科学与技术专业 硕 23
2) 王智广 中国石油大学(北京)人工智能学院 计算机科学与技术系教师
3) 刘志强 中国石油大学(北京)人工智能学院 计算机科学与技术专业 硕 23
4) 李晓雪 中国石油大学(北京)人工智能学院 计算机科学与技术专业 硕 23
5) 李 珅 中国石油大学(北京)人工智能学院 计算机技术系 硕23
文章简介:
随着现代智能交通系统的快速发展,两轮车违法驾驶行为的智能化检测成为了提升交通管理效率与安全性的关键环节。然而,这一领域的研究与实践面临着两大核心挑战:数据集的稀缺性与检测模型性能的不尽如人意。针对这些挑战,本文开展了一系列创研究工作。
摘要:
两轮车违法驾驶行为的智能化检测是构建现代智能交通监管系统的一个重要部分。然而,在这个领域的智能化检测面临着两个主要问题:第一个问题是缺乏相关的开源数据集,第二个问题是当前主流的目标检测模型在两轮车违法驾驶行为检测任务上的精度和速度不够理想。针对以上问题,本文构建了一个两轮车违法驾驶行为检测数据集(TIDBD dataset),并且提出了适用于两轮车违法驾驶行为检测任务的高效模型YOLOv8_VanillaBlock。
背景与动机:
目前,关于两轮车违法驾驶行为检测领域的开源数据集极为稀缺,仅有的几个开源数据集标注类别也较为单一,无法推动该领域的研究发展。此外,主流的目标检测模型在两轮车违法驾驶行为检测任务上表现并不理想,需要做进一步的改进。
主要内容:
1、TIDBD 数据集构建
我们构建了专门用于两轮车违法驾驶行为检测的数据集TIDBD(Two-wheeled vehicle Illegal Driving Behavior Detection)。我们采集数据的方式有两种,第一种方式是使用水平相机在城市内部道路固定路口持续拍摄。然后对拍摄的视频进行帧提取。第二种方式是在国道、省道以及城市内部道路上,利用高架摄像头进行抓拍。我们主要标注了使用手机、正/逆向行驶、非法加装改装、是否佩戴头盔等10种驾驶行为。最终,我们得到了3637张真实采集且详细标注的图片。TIDBD 数据集的数据分布如表1所示。
表1 不同采集方式和采集地点在TIDBD数据集中所占的比例
(1) VanillaBlock
我们借鉴Vanillanet的思想设计出了VanillaBlock。图1展示了我们所设计的VanillaBlock的结构,其由两个卷积层和两个池化层组成,中间有一个激活函数。VanillaBlock模块的最后一个组成部分是由n个激活函数组成的序列激活函数。
图1 VanillaBlock结构图示意图
为了证明我们所提出的VanillaBlock的计算复杂度相对于C2f模块有所减少,我们对C2f模块和VanillaBlock中各个组件的计算复杂度进行了估算,并给出了如下公式。
以YOLOv8l骨干网络的最后一个C2f模块和YOLOv8_VanillaBlock_l骨干网络的最后一个VanillaBlock为例, 。由于 远远小于 ,故可以忽略不计,则C2f和VanillaBlock的计算复杂度之比 。
(2) YOLOv8_VanillaBlock
为了提升YOLOv8在GPU上的检测速度,我们在VanillaBlock的基础之上,搭建了一种新的骨干网络Yolov8_VanillaBlock,其整体结构图如图2所示。
图2 YOLOv8_VanillaBlock骨干网络结构示意图
实验结果及分析:
1、检测准确率和FLOPs对比分析
我们在TIDBD数据集上使用较大尺寸的YOLOv8l和YOLOv8_VanillaBlock_l模型进行实验,以平衡检测精度和模型大小。以平均精度(AP50)为评价标准对两种模型进行比较。实验结果表明(图3所示),我们提出的YOLOv8_VanillaBlock_l在“use phone”、“canopy”等检测类别上显著优于原始的YOLOv8l。
图3 YOLOv8_VanillaBlock_l与YOLOv8l在TIDBD数据集上不同检测类别AP50的对比
表2 YOLOv8_VanillaBlock与YOLOv8准确率及计算量对比
表2显示,与尺寸为n、s、m、l、x的YOLOv8模型相比,我们提出的具有相应尺寸的YOLOv8_VanillaBlock模型的FLOPs分别降低了18.5%、21.8%、30.2%、26.7%和37.5%,mAP50分别提高了1.45%、0.5%、0.18%、1.31%和2.2%。这些结果表明,我们所提出的YOLOv8_VanillaBlock模型相对于原来的YOLOv8模型在FLOPs有所降低的同时获得了更高的准确率。
2、检测速度与实时性比较
我们测试了当输入图片分别缩放到320、640以及1088时的检测时间和FPS,检测时间测试结果见图4,FPS测试结果见表3。
图4 不同尺寸的YOLOv8_VanillaBlock与YOLOv8在不同大小的图片上检测时间的对比
表3 YOLOv8_VanillaBlock与YOLOv8在不同尺寸的输入图片下的FPS
从图4可以看出,在相同的输入图像尺寸下,YOLOv8_VanillaBlock模型的检测时间始终低于相应尺寸的原始YOLOv8模型。当输入图像大小为1088时,检测速度的提高尤为明显。从表3可以看出,对于相同大小的输入图像,YOLOv8_VanillaBlock模型每秒处理的帧数始终高于YOLOv8模型。当输入图像为1088时,YOLOv8_VanillaBlock的FPS分别比对应尺寸的YOLOv8高14.2%、3.9%、13.7%、16.1%、30.2%。结果表明,我们提出的方法可以显著提高YOLOv8的检测速度。
结论:
本文构建了专门用于两轮车违法驾驶行为检测的数据集TIDBD,解决了相关领域开源数据集稀缺的问题。在此基础上,提出了YOLOv8_VanillaBlock这一专门用于两轮车违法驾驶行为检测的模型。实验结果证明,我们所提出的模型在检测精度和检测速度上都优于基线模型。
通讯作者简介:
王智广,教授,博士生导师,北京市教学名师。中国计算机学会(CCF)高级会员,全国高校实验室工作研究会信息技术专家指导委员会委员,北京市计算机教育研究会常务理事。长期从事分布式并行计算、三维可视化、计算机视觉、知识图谱方面的研究工作,主持或承担国家重大科技专项子任务、国家重点研发计划子课题、国家自然科学基金、北京市教委科研课题、北京市重点实验室课题、地方政府委托课题以及企业委托课题20余项,在国内外重要学术会议和期刊上合作发表学术论文70余篇,培养了100余名硕士博士研究生。