点击数: 更新日期: 2022-08-31
中文题目:基于任务级共享隐表示对齐的连续学习
录用/见刊时间:2022年7月02日
论文题目:Continual Learning by Task-wise Shared Hidden Representation Alignment
录用期刊/会议:The 31st International Conference on Artificial Neural Networks (ICANN2022) CCF-C类会议
作者列表:
1) 展旭晖 (中国石油大学(北京) 信息科学与工程学院 自动化系) 控制科学与工程 硕20
2) 刘建伟 (中国石油大学(北京) 信息科学与工程学院 自动化系)
3) 韩亚楠 (中国石油大学(北京) 信息科学与工程学院 自动化系) 控制科学与工程 博19
背景与动机:
机器学习的目标之一是更自然的学习一系列任务,连续学习(CL)模仿人类真实的学习方式,在不忘记旧知识的前提下不断学习新知识,该学习方式已成为时下热门的研究方向之一。然而,如何在学习新知识的过程中避免遗忘,已成为连续学习主要问题之一。大量研究证明,更好的学习任务中的公有表示可以在一定程度上缓解灾难性遗忘问题。在本文中,我们特别关注两个连续任务之间的共享隐表示(共同特征)提取,并使用任务级共享隐表示对齐模块探索了一种CL模型——TSHRA,该模型对比了当前训练任务的共享隐表示和先前任务的重建伪样本的共享隐表示之间的相似程度。为了验证提出的模型,我们在MNIST和Fashion-MNIST上进行了实验。实验结果表明,TSHRA的性能相比基线CL算法表现突出,这证明任务级共享对齐模块对缓解灾难性遗忘问题有着积极影响。
设计与实现:
首先定义一个增量学习场景,含有总数为的一系列任务,表示为,由属于任务的所有输入样例,和对应的一个热编码标签组成,且满足
。类增量模型将从到依次学习每个任务。当CIL模型从训练到时,分配个缓冲区来存储cVAE解码器的重构样例。当CIL模型为任务训练样本时,存储在缓冲区中的重建样本也将参与训练。重建样本如下:
TSHRA模型由六个部分组成:cVAE编码器:用于提取共享隐表示;任务级共享隐藏表示对齐模块:强制当前任务和前一任务的共享隐表示之间进行相似性约束,并提取出已训练的当前任务和前一任务之间的共享隐藏表示;cVAE译码器:生成训练过的前一个任务的重构样本;缓冲区:存储由标签到标签重建样本;当前任务的特定编码器:用于提取当前任务的私有隐表示;分类器:利用共享隐表示和私有隐表示作为输入进行分类。
图1:TSHRA模型结构
编码器从缓冲区和当前任务示例中提取重建样本的隐表示的过程可以视为编码器提取两个随机增强视图的过程。将当前任务输入示例的隐表示与之前任务样本的伪隐表示进行比较,以便更好地学习任务的任务级共享隐藏表示。
图2.TSHRA模型的训练过程
使用cVAE的编码器部分作为骨干网络。将训练样本输入编码器后,获得当前任务的潜在表示和前一任务的伪潜在表示。使用最小化的负余弦相似性,作为对齐模块目标函数:
其中为范数,考虑到输入样例的充分比较,使用均方差损失定义重构损失:
对于解码器部分,使用KL散度作为约束来最小化分布之间的距离:
最后,结合对其模块的目标函数,cVAE损失函数可以表示为:
实验结果及分析:
图3:不同模型在两种测试集中的表现
表1:不同模型在测试集中性能表现
实验表明,TSHRA的平均精度明显优于其他方法,其性能优于现有的基线模型。该方法可以有效地避免模型忘记之前学习过的任务,并学习当前任务的特征。
结论:
本文的主要贡献如下:
1) 建立了一种任务级的共享隐表示对齐模块,可以有效地提取不同任务的共享特征,并减轻灾难性遗忘的影响。
2) 提出的TSHRA框架填补了连接学习和非对比学习之间的空白。将非对比学习引入到分类场景中,避免了模型在对比学习过程中依赖正负样本对,这有助于分类模型比较属于不同类标签的训练样本特征。
3) 使用两个基准数据集进行了全面的实证研究。TSHRA优于现有的Baseline连续学习方法。
通讯作者简介:
刘建伟,副教授
博士生导师/硕士生导师。长期从事模式识别与智能系统、复杂系统分析与智能控制、机器学习和数据挖掘方面的研究工作。美国数学会《数学评论》评论员,中国人工智能学会机器学习分会高级会员。在计算机学报,自动化学报、计算机研究与发展、Neurocomputing、TNNLS等期刊上和国内国际会议上发表学术研究论文200多篇,其中三大检索150多篇。联系方式:liujw@cup.edu.cn