您所在的位置:首页 - 科学研究 - 科研动态

科研动态

基于超图特征增强与自适应逻辑调整的长尾图像识别算法

中文题目:基于超图特征增强与自适应逻辑调整的长尾图像识别算法

论文题目Dual-branch Network with Hypergraph Feature Augmentation and Adaptive Logits Adjustment for Long-tailed Visual Recognition

录用期刊/会议Applied Soft Computing (中科院一区、TOP期刊)

录用时间:2024.10.10

作者列表

1) 韩佳艺 中国石油大学(北京)人工智能学院 控制科学与工程 博22级

2) 刘建伟 中国石油大学(北京)人工智能学院 自动化系 教师

3) 徐璟东 中国石油大学(北京)人工智能学院 控制科学与工程 硕22级

摘要:

本文提出了一种基于解耦学习框架的超图特征增强和自适应逻辑调整的长尾视觉识别(HALR)算法。对于表征学习任务,我们从混合输入样本中提取超图特征,以捕获图像的全局空间上下文语义信息。对于分类器学习任务,我们提出了一个自适应逻辑调整函数,该函数自动纠正预测分数偏差,从而产生鲁棒决策边界。

背景与动机:

长尾分布存在数据稀缺性和显著的类不平衡问题,导致模型对头类的预测倾向增加,对尾类的预测性能降低。传统的长尾学习方法可以缓解尾类的信息缺失问题。然而,这些方法没有充分利用图像中包含的复杂非线性高阶关系以及头尾类之间的交互信息。在尾类数据稀缺的情况下,如何充分利用有限样本中的隐含信息是一个亟待解决的问题。

针对这些问题,我们提出了一种基于超图特征增强和自适应逻辑调整的长尾双分支模型。超图特征增强策略优化潜在特征表示,逻辑调整函数自动校准模型置信度偏差。我们的HALR同时改进了解耦长尾学习的表征学习和分类器学习任务。此外,我们采用余弦相似度度量学习方法来约束全局和局部混合一致性。在四个基准数据集的大量实验证实了我们提出的模型的有效性。

主要内容:

图1 HALR流程图

超图是一种通用的图结构方法,能够更准确地表示多个相关对象之间的关系。因此,利用超图挖掘图像特征中的结构信息,从全局的角度学习图像的空间上下文语义信息。超图卷积定义为:

我们利用超图卷积捕捉图像中隐含的语义信息,并将提取到的超图增强特征为:

与原特征融合后的最终输出特征为:

面对模型分类偏差的问题,大多数解耦学习方法依赖于数据集中预先存在的分布假设,并手动设置静态参数进行重采样或重加权。然而,这种人工参数设置需要广泛的专家知识,配置不当会严重影响学习算法的泛化能力。为此,我们提出一种自适应逻辑调整函数,以提高模型的适应性和泛化能力。该方法动态关注每个输入样本,根据数据集的实际分布和样本本身的难度自动修正两个分支的logits输出,表示为:

实验结果与分析:

我们在四个广泛使用的长尾数据集上评估了我们提出的HALR的性能:CIFAR10-LT, CIFAR100-LT, ImageNet-LT和iNaturalist2018。

图 2 数据集示意图

部分实验结果如表所示,我们在各个数据集上,展现了出色的竞争力:

表1 对不同不平衡因素下CIFAR10-LT的w.r.t top-1测试精度(%)进行基准测试

结论:

本文旨在解决长尾视觉识别任务中数据信息挖掘不足和模型置信度偏差的问题,提出了一种超图特征增强和自适应逻辑调整的双分支网络,有效提升了模型的性能。超图特征增强方法将视觉长尾学习从传统的欧氏空间扩展到非欧氏空间。使用超图特征作为辅助知识,有助于模型挖掘图像中隐含的上下文空间语义信息。实验表明,该方法在面对有限样本时增强了模型对尾部类的理解。自适应logits调节函数为模型提供了动态校准置信度的能力,从而缓解头类偏好问题,灵活地修正分类偏差。在CIFAR10/100-LT等4个基准数据集上的广泛实验验证了HALR显著提高了长尾图像分类性能,特别是在解决尾类样本稀缺问题方面表现出巨大潜力。在不平衡因子为10和100的CIFAR100数据集上,HALR分别取得了88.25%和58.27%的最佳top-1测试精度。

作者简介:

刘建伟,教师,学者。发表学术研究论文280多篇。研究领域涉及在线学习(包括强化学习,赌博机算法,持续学习,长尾学习);图像视频显著性目标检测,解纠缠表示学习,光场和神经场模型,以及图像视频少样本变化检测;自然语言理解中的知识补全,图神经网络;不平衡数据处理;霍克斯点过程故障预测与诊断;非线性预测与控制。 是兵器装备工程学报第三届编辑委员会委员。历届中国控制会议(CCC)和中国控制与决策会议(CCDC)的程序委员会委员。担任过80多个国际会议的TPC。