当前位置：主页 > 学术动态 >

基于部分感知注意力修正的视频显著目标检测方法

点击数: 更新日期: 2023-03-14

中文题目：基于部分感知注意力修正的视频显著目标检测方法

论文题目：Part-aware Attention Correctness for Video Salient Object Detection

录用期刊/会议：【Engineering Applications of Artificial Intelligence】 (JCR Q1 TOP)

原文DOI：【https://doi.org/10.1016/j.engappai.2022.105733】

原文链接：https://www.sciencedirect.com/science/article/pii/S0952197622007230

录用时间：2022.12.13

封面图片：

封面摘要：本文针对视频显著目标检测算法中的共现信息挖掘问题，借助注意力修正的思想，提出一种基于时空线索挖掘的显著目标检测方法。

作者列表：

1）刘泽宇中国石油大学（北京）信息科学与工程学院博20

2）刘建伟中国石油大学（北京）信息科学与工程学院自动化系副教授

文章简介:

人类的视觉处理能力能在复杂的场景中准确快速地对显著目标和其他区域进行区分。视频显著检测依赖于人眼视觉注意力机制,利用计算机模拟视觉注意机制,从而判断视频中的显著物体。当前大多数方法主要依赖于隐式注意力模型。在本⽂中，我们提出了使用显式监督的方法来纠正聚合过程中的错误，从而降低显著特征的假阳率，增强了算法的鲁棒性。

摘要:

视频显著目标检测旨在检测视频中最显眼的物体。当前研究主要采用隐式注意力模型来聚合相邻视频帧的互补信息。然而隐式注意力模型会聚合不相关的时空线索。为此，我们提出了⼀种新颖的注意⼒纠正策略来监督聚合过程。具体来说，我们采⽤成对训练的方式，利⽤正负样本监督来消除不相关的时空线索。该方法能够有效加强来自显著目标的特征，并抑制噪声信息。在正负样本监督的基础上，我们提出基于部分感知的注意力模型。通过对目标物体的部分区域进行建模，能够优化物体的细节信息，提高物体的判别精度。实验结果表明，所提算法具有较强的鲁棒性，能够处理各种复杂场景下视频运动目标的检测，检测准确率得到提高，并优于目前的主流算法。

背景与动机:

显著目标检测是计算机视觉和机器学习的研究热点之一。大部分研究者在时空线索挖掘框架下，使用隐式注意力模型，构建性能优异、泛化能力强的目标检测模型。在这项工作中，我们专注于显著目标检测任务，预测视频中最突出的目标。我们更关注于挖掘有效的时空线索，消除不相关的语义关联。为此，我们使用显式监督来抑制不相关的匹配模式，减少聚合过程中的负面对应关系。同时对于相邻帧之间的互补信息挖掘问题，我们开发了一种基于注意力的聚合模块，该模块能够动态计算相邻帧之间的内在关联。

设计与实现:

本框架主要分为三个阶段。算法流程图如图1所示。第一阶段我们使用主干网络对成对数据提取视觉特征。第二阶段使用注意力的思想，分别进行正例聚合和负例聚合。第三阶段，使用损失函数来对错误匹配进行纠正。

图1学习框架

需要注意，模型的损失包含两部分，分别是预测损失和纠正损失，其计算过程如下：

(1)

其中预测损失为：

(2)

纠正损失为：

(3)

主要内容:

针对时序信息聚合过程中的共现特征建模问题，我们提出了基于部分感知的上下文语义聚合模块，该模型能够改善显著目标的空间细节不完善问题。同时本文提出了一种新颖的注意力修正策略。该策略能够有效挖掘时空线索，消除不相关的语义关联，减少聚合过程中的负面对应关系。同时对于相邻帧之间的互补信息挖掘问题，我们开发了一种基于注意力的聚合模块，该模块能够动态计算相邻帧之间的内在关联。

实验结果及分析:

为了详细研究该方法的检测性能，我们在多个基准数据集上进⾏了定性和定量实验。

表1 SegTrack-V2、DAVIS-T、DAVSOD-T实验结果

	Dataset	SegTrack-V2			DAVIS-T			DAVSOD-T
	Metric	max ↑	↑	↓	max ↑	↑	↓	max ↑	↑	↓
2010-2015 Traditional	SIVM	0.581	0.605	0.251	0.450	0.557	0.212	0.298	0.486	0.288
	TIMP	0.573	0.644	0.116	0.488	0.593	0.172	0.395	0.563	0.195
	RWRV	0.438	0.583	0.162	0.345	0.556	0.199	0.283	0.504	0.245
	SAGM	0.634	0.719	0.081	0.515	0.676	0.103	0.370	0.565	0.184
	GFVM	0.592	0.699	0.091	0.569	0.687	0.103	0.334	0.553	0.167
2016-2022 Deep learning	MBNM	0.716	0.809	0.026	0.861	0.887	0.031	0.520	0.637	0.159
	CPD	0.778	0.841	0.023	0.778	0.859	0.032	0.608	0.724	0.092
	PoolNet	0.782	0.843	0.020	0.827	0.860	0.044	0.612	0.731	0.088
	EGNet	0.774	0.848	0.024	0.767	0.828	0.057	0.604	0.719	0.101
	SCNN	-	-	-	0.714	0.783	0.064	0.532	0.674	0.128
	SCOM	0.764	0.815	0.030	0.783	0.832	0.048	0.464	0.599	0.220
	DLVS	-	-	-	0.708	0.794	0.061	0.521	0.657	0.129
	FGRN†	-	-	-	0.783	0.838	0.043	0.573	0.693	0.098
	PDBM	0.800	0.864	0.024	0.855	0.882	0.028	0.572	0.698	0.116
	SFLR	0.745	0.804	0.037	0.727	0.790	0.056	0.478	0.624	0.132
	RCR	0.781	0.842	0.035	0.848	0.886	0.027	0.653	0.741	0.087
	PCSA	0.810	0.865	0.025	0.880	0.902	0.022	0.655	0.741	0.086
	WSV	0.738	0.804	0.033	0.779	0.828	0.037	0.605	0.705	0.103
	AGS	0.816	0.858	0.022	0.873	0.898	0.026	0.661	0.759	0.090
	STBP	0.640	0.735	0.061	0.544	0.677	0.096	0.410	0.568	0.160
	SGSP	0.673	0.681	0.124	0.655	0.692	0.138	0.426	0.577	0.207
	SSAV	0.801	0.851	0.023	0.861	0.893	0.028	0.603	0.724	0.092
	PUV	-	-	-	0.844	0.869	0.041	0.659	0.744	0.085
	MGT-Net	0.849	0.893	0.014	0.918	0.925	0.015	0.721	0.796	0.064
	CFCN-MA	-	-	-	0.867	0.888	0.020	0.568	0.712	0.085
	CSAtt	0.802	-	0.021	0.841	-	0.024	-	-	-
	DCFA†	-	-	-	0.909	0.918	0.015	0.662	0.753	0.083
	DCF†	0.839	0.883	0.015	0.900	0.914	0.016	0.660	0.741	0.074
	Ours	0.881	0.906	0.022	0.885	0.906	0.021	0.723	0.800	0.064

表2 FBMS-T、ViSal、VOS-T的实验结果

	Dataset	FBMS-T			ViSal			VOS-T
	Metric	max ↑	↑	↓	max ↑	↑	↓	max ↑	↑	↓
2010-2015 Traditional	SIVM	0.426	0.545	0.236	0.522	0.606	0.197	0.439	0.558	0.217
	TIMP	0.456	0.576	0.192	0.479	0.612	0.170	0.401	0.575	0.215
	RWRV	0.336	0.521	0.242	0.440	0.595	0.188	0.422	0.552	0.211
	SAGM	0.564	0.659	0.161	0.688	0.749	0.105	0.482	0.619	0.172
	GFVM	0.571	0.651	0.160	0.683	0.757	0.107	0.506	0.615	0.162
2016-2022 Deep learning	MBNM	0.816	0.857	0.047	0.883	0.898	0.020	0.670	0.742	0.099
	CPD	0.810	0.846	0.048	0.941	0.942	0.016	0.735	0.818	0.068
	PoolNet	0.856	0.878	0.037	0.945	0.945	0.015	0.719	0.796	0.076
	EGNet	0.848	0.878	0.044	0.941	0.946	0.015	0.698	0.793	0.082
	SCNN	0.762	0.794	0.095	0.831	0.847	0.071	0.609	0.704	0.109
	SCOM	0.797	0.794	0.079	0.831	0.762	0.122	0.690	0.712	0.162
	DLVS	0.759	0.794	0.091	0.852	0.881	0.048	0.675	0.760	0.099
	FGRN†	0.767	0.809	0.088	0.848	0.861	0.045	0.669	0.715	0.097
	PDBM	0.821	0.851	0.064	0.888	0.907	0.032	0.742	0.818	0.078
	SFLR	-	-	-	0.779	0.814	0.062	0.546	0.624	0.145
	RCR	-	-	-	0.906	0.922	0.026	0.833	0.873	0.051
	PCSA	0.831	0.866	0.041	0.940	0.946	0.017	0.747	0.827	0.065
	WSV	0.786	0.778	0.072	0.831	0.857	0.041	0.666	0.750	0.091
	AGS	0.840	0.874	0.048	0.960	0.960	0.014	0.774	0.840	0.066
	STBP	0.595	0.627	0.152	0.622	0.629	0.163	0.526	0.576	0.163
	SGSP	0.630	0.661	0.172	0.677	0.706	0.165	0.426	0.557	0.236
	SSAV	0.865	0.879	0.040	0.939	0.943	0.020	0.742	0.819	0.073
	PUV	0.862	0.873	0.042	0.958	0.954	0.011	0.729	0.811	0.074
	MGT-Net	0.890	0.901	0.033	0.949	0.946	0.011	-	-	-
	CFCN-MA	0.865	0.880	0.037	0.943	0.945	0.011	-	-	-
	CSAtt	0.810	-	0.063	0.891	-	0.023	-	-	-
	DCFA†	0.915	0.909	0.026	0.951	0.947	0.013	-	-	-
	DCF†	-	-	-	0.953	0.952	0.010	0.791	0.846	0.060
	Ours	0.866	0.888	0.035	0.953	0.953	0.011	0.837	0.880	0.042

结论:

视频显著目标检测是计算机视觉的基本研究问题。本文提出一种新颖的显式注意力纠正策略，该策略能够消除不相关的时空线索，有效加强来自显著目标的特征，并抑制噪声信息。在正负样本监督的基础上，我们提出基于部分感知的注意力模型。通过对目标物体的部分区域进行建模，能够优化物体的细节信息，提高物体的判别精度。实验结果表明，本文提出的算法优于其他常用或先进的显著目标检测模型。

作者简介:

刘泽宇，中国石油大学（北京）信息科学与工程学院博20。主要研究显著性目标检测。

通讯作者简介:

刘建伟，博士生导师/硕士生导师。从事模式识别与智能系统、复杂系统分析与智能控制、机器学习和数据挖掘方面的研究工作。在国际国内期刊上和国际国内会议上发表学术研究论文200多篇。