点击数: 更新日期: 2024-07-19
中文题目:基于多任务学习的视频和图像显著目标检测方法
论文题目:Video and Image Salient Object Detection Based on Multi-Task Learning
录用期刊/会议:计算机科学(CCF中文B类)
原文DOI:10.11896/jsjkx.231000051
原文链接:https://www.jsjkx.com/CN/10.11896/jsjkx.231000051
作者列表:
1) 刘泽宇 中国石油大学(北京)人工智能学院 控制科学与工程 博20
2) 刘建伟 中国石油大学(北京)人工智能学院 自动化系 教师
摘要:
显著目标检测(Salient Object Detection, SOD)能够模拟人类的注意力机制,在复杂的场景中快速发现高价值的显著目标,为进一步的视觉理解任务奠定了基础。图像和视频显著目标检测任务既有共性又有特性,因而需要部署独立的模型进行单独训练,这大大增加了运算资源和训练时间开销。当前研究大多针对单个任务提出独立的解决方案,而缺少统一的图像和视频显著目标检测方法。针对上述问题,本文提出了一种基于多任务学习的图像和视频显著目标检测方法,通过一次训练同时适配两种任务,并进一步弥合图像和视频显著目标检测方法之间的性能差异。12个数据集上的定性和定量实验结果表明本文提出的方法不仅能够同时适配两种任务,而且取得了比单任务模型更好的检测结果。
背景与动机:
图1 图像和视频显著目标检测方法在静态图像和视频序列上的可视化对比结果示意图
图1给出了图像和视频显著目标检测方法在静态图像和视频序列上的可视化对比结果。 图像显著目标检测算法虽然能够定位静态图像中的显著目标,并给出清晰的目标边界,然而不具备视频理解能力,因而会产生前景误判问题。 视频序列的内容是小狗与玩具盒,由于缺乏时空信息,图像显著目标检测算法BASNet错误地将玩具盒作为显著目标,而视频显著目标检测方法能够基于视频内容给出合理的预测结果。
设计与实现:
图2 模型框架结构示意图
图2给出了基于多任务学习的图像及视频显著目标检测方法的整体流程图。模型采用端到端的编解码结构,编码阶段使用通道注意力对显著特征进行挖掘,解码阶段引入自顶向下的特征聚合过程,并进一步共享编解码模块参数,以最大限度地利用任务间相关知识。
主要内容:
模型通过联合优化图像及视频显著目标检测任务的方式进行训练,并最大限度地共享任务间相关知识。包含对显著特征提取模块、时空注意力模块、解码模块。
实验结果及分析:
图3 各模型在视频显著目标检测任务上的定性比较结果
结论:
本文提出了基于多任务学习的视频及图像显著目标检测方法。在编码阶段,通过带有残差连接的通道注意力模块初步提取显著特征,过滤冗余信息,选择与检测任务最相关的底层特征。针对视频分支,利用时空注意力引导解码过程选择显著目标,减少背景干扰。时空注意力模块利用键值查询构建视频帧之间的暂态关系,有助于融合视频上下文信息。针对图像解码分支,自顶向下的特征聚合过程有助于充分融合多尺度特征,逐步改善目标的局部细节。编解码过程最大限度地共享网络权重,使得任务间相关知识得到充分提炼。最后同时对图像和视频显著目标检测任务进行优化,通过一次训练同时适配两种任务。
通讯作者简介:
刘建伟,副教授,学者。研究领域涉及在线学习(包括强化学习,赌博机算法,持续学习,长尾学习);图像视频显著性目标检测,解纠缠表示学习,光场和神经场模型,以及图像视频少样本变化检测;自然语言理解中的知识补全,图神经网络;不平衡数据处理;霍克斯点过程故障预测与诊断;非线性预测与控制。