当前位置: 主页 > 学术动态 >

基于有效通道注意的相关知识在线连续学习

点击数:   更新日期: 2022-04-26

中文题目:基于有效通道注意的相关知识在线连续学习

录用/见刊时间:2022年4月26日

封面图片:

论文题目electing Related Knowledge via Efficient Channel Attention for Online Continual Learning

录用期刊/会议the 2022 International Joint Conference on Neural Networks (IJCNN 2022) CCF-C类会议

作者列表

1) 韩亚楠 (中国石油大学(北京) 信息科学与工程学院 自动化系) 控制科学与工程 博19

2) 刘建伟 (中国石油大学(北京) 信息科学与工程学院 自动化系)

背景与动机:

当前,深度神经网络在许多应用中显示出最好的学习能力,然而,使用该方法对数据进行增量更新学习时,会面临灾难性的干扰或遗忘问题,导致模型在学习新任务之后,忘记如何解决旧任务。连续学习(continual learning,CL)的研究使这一问题得到缓解。连续学习是模拟大脑学习的过程,按照一定的顺序对连续非独立同分布的(independently and identically distributed,IID)流数据进行学习,进而根据任务的执行结果对模型进行增量式更新。当前,现有的关于连续学习的方法大致可以分为三类:基于正则化方法、基于框架方法和基于记忆的方法。为了避免灾难性遗忘,典型的基于正则化的方法例如弹性权重整合法,SI等方法,尝试给模型的目标函数施加一个正则化项,尽可能地保证对之前任务重要的参数权重不变。该类方法的差异主要是对重要参数的度量过程。基于框架方法试图改变框架结构以学习新的知识。基于记忆的方法通过存储以前的样例来缓解灾难性遗忘。相较于其它类型的方法,基于记忆回放方法在在线连续学习的场景下,展现出巨大优势,因此,基于记忆回放的方法常用于连续学习过程中避免灾难性遗忘问题。一般来说,当前现有的模型对所有任务通常使用相同的学习框架,也就是说,所有任务都要共享之前学到的知识。因此,对不同的输入样例,模型能够自动地从通用特征库中自动提取有用信息。

设计与实现:

因此,为了解决上述问题,本次研究尝试应用有效的通道注意方法,使得模型能够根据输入样例自适应地选择与此样例相关的知识来进一步学习新知识。模型的结构如下图1所示。


如上图1所示,模块a表示模型整个训练阶段的整体架构,当任务t到来时,首先利用特征提取器获得样例的潜在表征,其中Ltotal表示模型的损失函数。模块c表示特征提取器部分。模块b表示有效的通道注意模块,该模块可用于选择和样例相关的知识,提高模型的学习效率。

具体方法为,假设我们使用微信图片_20220715145125.png表示卷积输出,其中,H,以及C分别表示特征图的高度、宽度和深度。向量S表示通道注意力的输出,它可以根据不同的输入来对模型卷积层的输出进行校正,其公式如下所示:

微信图片_202207151451251.png

这里,表示相应通道的伸缩值,表示按通道相乘。为了获取局部跨通道信息,确保效率和效果,对的权重的计算通过考虑周围几个近邻的通道值,对其相应的几个K近邻的计算为:

微信图片_202207151451252.png

这个过程可以通过一个具有核大小的快速一维卷积来实现:


微信图片_202207151451253.png

C1D表示一维卷积。

实验结果及分析:

为了进一步验证本文提出方法的有效性,我们在不同的数据集上分别进行了对比实验和消融实验。不同模型在平均准确性、遗忘以及学习准确率下的实验结果如下表1所示。此外,消融实验用于研究模型中不同的模块对模型性能的贡献。其中SRKOCL表示本次研究提出的模型;SRKOCL-POD表示提出的模型使用知识蒸馏的约束,而不使用有效通道注意;SRKOCL-Base:该模型在没有有效通道注意和知识蒸馏约束的情况下进行训练。实验结果表明,相较与其它基准算法,我们提出的模型获得了较好的实验效果,此外消融实验也进一步验证了模型中各个模块的作用。

Method

Split SVHN


ACC (

)

FM (

)

LA (

)


LWF

0.8327

0.0196

0.1337

0.0365

0.9397

0.0111


EWC

0.8265

0.0179

0.1466

0.0410

0.9439

0.0160


ICARL

0.8689

0.0204

0.1062

0.0354

0.9539

0.0104


GEM

0.9000

0.0159

0.0714

0.0308

0.9572

0.0102


ER

0.9157

0.0137

0.0608

0.0182

0.9643

0.0041


FTML

0.9330

0.0063

0.0422

0.0103

0.9668

0.0021


SRKOCL-Base

0.9215

0.0167

0.0511

0.0256

0.9616

0.0051


SRKOCL-POD

0.9396

0.0047

0.0216

0.0068

0.9529

0.0081


SRKOCL

0.9410

0.0048

0.0169

0.0116

0.9527

0.0073


Method

Split CIFAR100

ACC (

)

FM (

)

LA (

)

LWF

0.4224

0.0152

0.2240

0.0128

0.6425

0.0077

EWC

0.3824

0.0440

0.2686

0.0473

0.6438

0.0092

ICARL

0.4648

0.0061

0.1877

0.0212

0.6601

0.0199

GEM

0.6263

0.0074

0.0708

0.0052

0.6799

0.0071

ER

0.6304

0.0199

0.0583

0.0276

0.6873

0.0107

FTML

0.6272

0.0150

0.0850

0.0144

0.7023

0.0048

SRKOCL-Base

0.6320

0.0058

0.0652

0.0076

0.6727

0.0088

SRKOCL-POD

0.6485

0.0130

0.0474

0.0136

0.6716

0.0066

SRKOCL

0.6698

0.0066

0.0490

0.0117

0.6945

0.0147








作者简介:

刘建伟,副教授

博士生导师/硕士生导师。长期从事模式识别与智能系统、复杂系统分析与智能控制、机器学习和数据挖掘方面的研究工作。美国数学会《数学评论》评论员,中国人工智能学会机器学习分会高级会员。在计算机学报,自动化学报、计算机研究与发展、Neurocomputing、TNNLS等期刊上和国内国际会议上发表学术研究论文200多篇,其中三大检索150多篇。

联系方式:liujw@cup.edu.cn