当前位置: 主页 > 学术动态 >

基于部分感知注意力修正的视频显著目标检测方法

点击数:   更新日期: 2023-03-14

中文题目:基于部分感知注意力修正的视频显著目标检测方法

论文题目Part-aware Attention Correctness for Video Salient Object Detection

录用期刊/会议:【Engineering Applications of Artificial Intelligence】 (JCR Q1 TOP)

原文DOI:【https://doi.org/10.1016/j.engappai.2022.105733

原文链接:https://www.sciencedirect.com/science/article/pii/S0952197622007230

录用时间:2022.12.13

封面图片:


封面摘要:本文针对视频显著目标检测算法中的共现信息挖掘问题,借助注意力修正的思想,提出一种基于时空线索挖掘显著目标检测方法

作者列表

1) 刘泽宇 中国石油大学(北京)信息科学与工程学院 博20

2) 刘建伟 中国石油大学(北京)信息科学与工程学院 自动化系 副教授

文章简介:

人类的视觉处理能力能在复杂的场景中准确快速地对显著目标和其他区域进行区分视频显著检测依赖于人眼视觉注意机制,利用计算机模拟视觉注意机制,从而判断视频中的显著物体。当前大多数方法主要依赖于隐式注意模型。在本中,我们提出了使用显式监督的方法来纠正聚合过程中的错误从而降低显著特征假阳率,增强了算法的鲁棒性。

摘要:

视频显著目标检测旨在检测视频中最显眼的物体当前研究主要采用隐式注意模型来聚合相邻视频帧的互补信息。然而隐式注意力模型会聚合不相关的时空线索。为此,我们提出了种新颖的注意纠正策略来监督聚合过程。具体来说,我们采成对训练的方式,利正负样本监督来消除不相关的时空线索该方法能够有效加来自显著目标的特征,并抑制噪声信息。在正负样本监督的基础上,我们提出基于部分感知的注意力模型。通过对目标物体的部分区域进行建模,能够优化物体的细节信息,提高物体的判别精度。实验结果表明,所提算法具有较强的鲁棒性,能够处理各种复杂场景下视频运动目标的检测,检测准确率得到提高优于目前的主流算法。

背景与动机:

    显著目标检测是计算机视觉和机器学习的研究热点之一。大部分研究者在时空线索挖掘框架下,使用隐式注意力模型,构建性能优异、泛化能力强的目标检测模型。在这项工作,我们专注于显著目标检测任务,预测视频中最突出的目标。我们更关注于挖掘有效的时空线索,消除不相关的语义关联。为此,我们使用显式监督来抑制不相关的匹配模式,减少聚合过程中的负面对应关系。同时对于相邻之间的互补信息挖掘问题,我们开发了一种基于注意力的聚合模块,该模块能够动态计算相邻帧之间的内在关联。

设计与实现:

本框架主要分为三个阶段。算法流程图如图1所示。第一阶段我们使用主干网络对成对数据提取视觉特征。第二阶段使用注意力的思想,分别进行正例聚合和负例聚合。第三阶段,使用损失函数来对错误匹配进行纠正。



图1学习框架

需要注意,模型的损失包含两部分,分别是预测损失和纠正损失,其计算过程如下:



(1)

其中预测损失为:



(2)

纠正损失为:



(3)

主要内容:

针对时序信息聚合过程中的共特征建模问题我们提出了基于部分感知的上下文语义聚合模块,该模型能够改善显著目标的空间细节不完善问题。同时提出了一种新颖的注意力修正策略该策略能够有效挖掘时空线索,消除不相关的语义关联减少聚合过程中的负面对应关系。同时对于相邻之间的互补信息挖掘问题,我们开发了一种基于注意力的聚合模块,该模块能够动态计算相邻帧之间的内在关联。

实验结果及分析:

为了详细研究该方法检测性能,我们在多个基准数据集了定性和定量实验

1 SegTrack-V2DAVIS-TDAVSOD-T实验结果

Dataset

SegTrack-V2

DAVIS-T

DAVSOD-T

Metric

max





max





max





2010-2015

Traditional

SIVM

0.581

0.605

0.251

0.450

0.557

0.212

0.298

0.486

0.288

TIMP

0.573

0.644

0.116

0.488

0.593

0.172

0.395

0.563

0.195

RWRV

0.438

0.583

0.162

0.345

0.556

0.199

0.283

0.504

0.245

SAGM

0.634

0.719

0.081

0.515

0.676

0.103

0.370

0.565

0.184

GFVM

0.592

0.699

0.091

0.569

0.687

0.103

0.334

0.553

0.167

2016-2022

Deep learning

MBNM

0.716

0.809

0.026

0.861

0.887

0.031

0.520

0.637

0.159

CPD

0.778

0.841

0.023

0.778

0.859

0.032

0.608

0.724

0.092

PoolNet

0.782

0.843

0.020

0.827

0.860

0.044

0.612

0.731

0.088

EGNet

0.774

0.848

0.024

0.767

0.828

0.057

0.604

0.719

0.101

SCNN

-

-

-

0.714

0.783

0.064

0.532

0.674

0.128

SCOM

0.764

0.815

0.030

0.783

0.832

0.048

0.464

0.599

0.220

DLVS

-

-

-

0.708

0.794

0.061

0.521

0.657

0.129

FGRN

-

-

-

0.783

0.838

0.043

0.573

0.693

0.098

PDBM

0.800

0.864

0.024

0.855

0.882

0.028

0.572

0.698

0.116

SFLR

0.745

0.804

0.037

0.727

0.790

0.056

0.478

0.624

0.132

RCR

0.781

0.842

0.035

0.848

0.886

0.027

0.653

0.741

0.087

PCSA

0.810

0.865

0.025

0.880

0.902

0.022

0.655

0.741

0.086

WSV

0.738

0.804

0.033

0.779

0.828

0.037

0.605

0.705

0.103

AGS

0.816

0.858

0.022

0.873

0.898

0.026

0.661

0.759

0.090

STBP

0.640

0.735

0.061

0.544

0.677

0.096

0.410

0.568

0.160

SGSP

0.673

0.681

0.124

0.655

0.692

0.138

0.426

0.577

0.207

SSAV

0.801

0.851

0.023

0.861

0.893

0.028

0.603

0.724

0.092

PUV

-

-

-

0.844

0.869

0.041

0.659

0.744

0.085

MGT-Net

0.849

0.893

0.014

0.918

0.925

0.015

0.721

0.796

0.064

CFCN-MA

-

-

-

0.867

0.888

0.020

0.568

0.712

0.085

CSAtt

0.802

-

0.021

0.841

-

0.024

-

-

-

DCFA

-

-

-

0.909

0.918

0.015

0.662

0.753

0.083

DCF

0.839

0.883

0.015

0.900

0.914

0.016

0.660

0.741

0.074

Ours

0.881

0.906

0.022

0.885

0.906

0.021

0.723

0.800

0.064

2 FBMS-TViSalVOS-T实验结果

Dataset

FBMS-T

ViSal

VOS-T

Metric

max





max





max





2010-2015

Traditional

SIVM

0.426

0.545

0.236

0.522

0.606

0.197

0.439

0.558

0.217

TIMP

0.456

0.576

0.192

0.479

0.612

0.170

0.401

0.575

0.215

RWRV

0.336

0.521

0.242

0.440

0.595

0.188

0.422

0.552

0.211

SAGM

0.564

0.659

0.161

0.688

0.749

0.105

0.482

0.619

0.172

GFVM

0.571

0.651

0.160

0.683

0.757

0.107

0.506

0.615

0.162

2016-2022

Deep learning

MBNM

0.816

0.857

0.047

0.883

0.898

0.020

0.670

0.742

0.099

CPD

0.810

0.846

0.048

0.941

0.942

0.016

0.735

0.818

0.068

PoolNet

0.856

0.878

0.037

0.945

0.945

0.015

0.719

0.796

0.076

EGNet

0.848

0.878

0.044

0.941

0.946

0.015

0.698

0.793

0.082

SCNN

0.762

0.794

0.095

0.831

0.847

0.071

0.609

0.704

0.109

SCOM

0.797

0.794

0.079

0.831

0.762

0.122

0.690

0.712

0.162

DLVS

0.759

0.794

0.091

0.852

0.881

0.048

0.675

0.760

0.099

FGRN

0.767

0.809

0.088

0.848

0.861

0.045

0.669

0.715

0.097

PDBM

0.821

0.851

0.064

0.888

0.907

0.032

0.742

0.818

0.078

SFLR

-

-

-

0.779

0.814

0.062

0.546

0.624

0.145

RCR

-

-

-

0.906

0.922

0.026

0.833

0.873

0.051

PCSA

0.831

0.866

0.041

0.940

0.946

0.017

0.747

0.827

0.065

WSV

0.786

0.778

0.072

0.831

0.857

0.041

0.666

0.750

0.091

AGS

0.840

0.874

0.048

0.960

0.960

0.014

0.774

0.840

0.066

STBP

0.595

0.627

0.152

0.622

0.629

0.163

0.526

0.576

0.163

SGSP

0.630

0.661

0.172

0.677

0.706

0.165

0.426

0.557

0.236

SSAV

0.865

0.879

0.040

0.939

0.943

0.020

0.742

0.819

0.073

PUV

0.862

0.873

0.042

0.958

0.954

0.011

0.729

0.811

0.074

MGT-Net

0.890

0.901

0.033

0.949

0.946

0.011

-

-

-

CFCN-MA

0.865

0.880

0.037

0.943

0.945

0.011

-

-

-

CSAtt

0.810

-

0.063

0.891

-

0.023

-

-

-

DCFA

0.915

0.909

0.026

0.951

0.947

0.013

-

-

-

DCF

-

-

-

0.953

0.952

0.010

0.791

0.846

0.060

Ours

0.866

0.888

0.035

0.953

0.953

0.011

0.837

0.880

0.042

结论:

视频显著目标检测是计算机视觉的基本研究问题。本文提出一种新颖的显式注意力纠正策略,该策略能够消除不相关的时空线索,有效加强来自显著目标的特征,并抑制噪声信息。在正负样本监督的基础上,我们提出基于部分感知的注意力模型。通过对目标物体的部分区域进行建模,能够优化物体的细节信息,提高物体的判别精度。实验结果表明,本文提出的算法优于其他常用或先进的显著目标检测模型。

作者简介:

    刘泽宇中国石油大学(北京)信息科学与工程学院 20。主要研究显著性目标检测。

通讯作者简介:

刘建伟, 博士生导师/硕士生导师。从事模式识别与智能系统、复杂系统分析与智能控制、机器学习和数据挖掘方面的研究工作。在国际国内期刊上和国际国内会议上发表学术研究论文200多篇