点击数: 更新日期: 2022-08-25
中文题目:基于知识蒸馏和表示学习的连续学习
论文题目:Continual Learning Based on Knowledge Distillation and Representation Learning
录用时间:2022年6月26日
作者列表:
1) 陈修言 (中国石油大学(北京) 信息科学与工程学院 自动化系) 控制科学与工程 研21
2) 刘建伟 (中国石油大学(北京) 信息科学与工程学院 自动化系)
3) 李文韬 (中国石油大学(北京) 信息科学与工程学院 自动化系) 控制科学与工程 研20
背景与动机:
在过去的几年里,连续学习引起了很多关注,但连续学习的概念可以追溯到20世纪90年代。连续学习研究的是从无限的数据流中学习的问题,其目标之一是逐步扩展获得的知识并应用于未来的学习。然而,现实场景中的数据流往往是非稳态数据,当连续学习在增量获取新知识时,会导致灾难性的遗忘。所谓灾难性遗忘是指在学习新知识后,模型对旧知识的表现会急剧下降,甚至完全忘记旧知识。
许多方法被提出来解决灾难性遗忘的问题,主要有三类:基于网络结构的方法,基于排练的方法,以及基于正则化的方法。基于现有的连续学习中灾难性遗忘的解决方案,本文提出了一种基于伪排练和正则化的新型方法,称为基于知识蒸馏和表示学习的连续学习(KRCL)。该模型主要使用伪排练和知识蒸馏技术,结合Beta-VAE模型的表示学习来解决类增量学习问题。具体来说,Beta-VAE编码器分解出数据的不变表示,并将其与特定表示结合起来,用于学习序列任务。解码器生成伪样本,并将其用于下一个任务的训练。最后,知识蒸馏技术被用来从模型中提取暗知识,并产生蒸馏损失来约束模型的训练过程。
综上所述,本文的主要贡献有以下几点:
(1) 利用Beta-VAE将学习到的表示拆分为不变表示和特定表示,这有助于在连续训练任务中更好地掌握基本信息。
(2) 将数据的基础真实标签加入到Beta-VAE解码器中,并利用解码器生成伪样本,用于下一个任务的训练。这就是所谓的伪排练。
(3)引入知识蒸馏技术,从旧任务的训练模型(也称为教师模型)中提取暗知识,并结合当前任务的模型构建蒸馏损失。蒸馏损失被添加到分类器损失中以约束模型训练,这在缓解灾难性遗忘方面起着关键作用。
我们KRCL模型的框架图如下图所示:
本文提出的KRCL模型具有三个模块,表示学习模块(RLM)、知识蒸馏模块(KDM)和分类器模块(CM)。 RLM主要由Beta-VAE的编码器和解码器组成。编码器将训练数据编码为不变表示,解码器将不变表示解码为伪样本。KDM 主要由教师模型组成,其中包含旧编码器、旧特定表示学习器(本质上是VAE 编码器)和旧分类器。前两部分分别将训练数据编码为旧的不变表示和旧的特定表示。CM主要由特定的表示学习器和分类器组成。 前者将训练数据编码为特定的表示,后者将特定和不变的表示结合起来生成预测值。
实验结果及分析:
我们选取了4个基准模型,分别是Finetune、LWF、IRCL以及KRCL_real,其中KRCL_real是我们提出的KRCL模型中,使用真实样本作为下一个任务训练样本的基准模型。同时,我们选择了4个数据集,分别是Split MNIST dataset、Split FashionMNIST dataset、Split SVHN dataset以及Split CIFAR10 dataset。除此之外,我们采用3个评价指标,分别是ACC、BWT以及LA。最终实验结果如下图所示:
结论:
实验结果表明,KRCL模型相对于其他仅基于正则化或伪演练方法的基线方法有一定程度的改进。它可以更好地缓解简单数据集上的灾难性遗忘问题并取得优异的实验结果,并且可以在一定程度上缓解特别复杂的数据集上的灾难性遗忘问题。
根据实验结果,解码器生成的伪样本的质量对模型的效果有比较大的影响。未来,我们可以考虑使用GAN等模型来生成更好的伪样本,从而提高模型的有效性。
通讯作者简介:
刘建伟,副教授
博士生导师/硕士生导师。长期从事模式识别与智能系统、复杂系统分析与智能控制、机器学习和数据挖掘方面的研究工作。美国数学会《数学评论》评论员,中国人工智能学会机器学习分会高级会员。在计算机学报,自动化学报、计算机研究与发展、Neurocomputing、TNNLS等期刊上和国内国际会议上发表学术研究论文200多篇,其中三大检索150多篇。
联系方式:liujw@cup.edu.cn