中文题目:基于多级深层次知识蒸馏的动态类增量学习框架
论文题目: A dynamic class incremental learning expansion architecture based on Multi-level deep knowledge
录用期刊/会议:中国自动化大会CAC(CAA A类会议)
录用时间:2024.9.18
作者列表:
1) 邹 周 中国石油大学(北京)人工智能学院 控制工程 硕22级
2) 刘建伟 中国石油大学(北京)人工智能学院 自动化系 教师
摘要:
增量学习是旨在解决模型无法连续训练的问题而提出的,其中动态可扩展架构在性能方面有极为显著的优势,然而,它在其中也存在一些问题,首先数据间存在三种混乱问题阻碍性能的提升,其次没有考虑到不同样本的知识含量以及继承难度,使得难以充分继承。本文提出了一种名为MLD-DEA的动态类增量学习扩展架构,旨在解决以上问题并克服类增量学习任务中的灾难性遗忘。
背景与动机:
类增量学习旨在训练出一个模型能够克服灾难性遗忘,其在当前类上训练获取新知识时,能够尽可能多的保留从旧类中学到的旧知识。目前,动态可扩展框架(DEA)正逐渐成为一种备受关注的模型范式。该框架随着任务数量的增加而灵活扩展,通过将每个任务映射到独立的子网络并在引入新任务时冻结先前任务的权重,实现了网络结构的动态演化。其中,DEA的一项显著优势在于其能够有效地保留已学习任务的知识。但是它目前存在着数据间的混乱以及数据不充分继承的问题,阻碍它的性能进一步提升。
主要内容:
本文提出了一种基于多层次深度知识蒸馏的动态扩展架构(MLD-DEA)来解决数据间的混乱以及数据不充分继承的问题,从而更好地克服增量学习中的灾难性遗忘问题。MLD-DEA 利用多层次深度知识蒸馏,结合了特征层、实例对数层、实例间相关对数层和类相关对数层。具体来说,它在每个新旧特征提取器之间建立知识传播路径。然后,在新旧分类器之间建立多级知识传播路径,从而形成旧知识继承和新模型的完整路径,有效地将知识从旧模型转移到新模型,从而缓解任务间、任务内和新旧混淆等问题。此外MLD-DEA还引入了熵加权实例级蒸馏,以根据样本的不同难度调整知识转移过程,并且设计了全新的特征融合模块,通过聚焦于更主要的特征来克制灾难性遗忘问题。
图1. MLD-DEA模型的结构图
结论:
本文重点研究了动态可扩展架构中的混乱问题,其中ITC、WTC 和 ONC 是灾难性遗忘的主要原因。针对这一问题,本文提出了MLD-DEA,利用多层次的深度知识提炼和特征融合模块,更全面地继承和学习知识。在 CIFAR100 和 ImageNet100 上进行的完整实验验证了我们的方法。MLD-DEA 报告了最先进的准确率,并且即使在不同内存池大小的情况下也能保持最先进的水平。但是,由于每个任务网络中的知识无法全部贡献出来,因此准确率的提高和误差的减少仍然受到限制。因此,未来我们将探索如何更好地共享不同子网络之间的知识,并有兴趣将 MLD-DEA 扩展到其他应用场景。
作者简介:
刘建伟,教师,学者。