您所在的位置:首页 - 科学研究 - 科研动态

科研动态

深度长尾学习研究综述

中文题目:深度长尾学习研究综述

论文题目:Survey on deep long-tailed learning

录用期刊/会议:自动化学报 (CAA A类期刊)

录用时间:2024.7.28

作者列表

1)韩佳艺 中国石油大学(北京)人工智能学院 控制科学与工程 22

2)刘建伟 中国石油大学(北京)人工智能学院 自动化系 教师

3)陈德华 东华大学 计算机科学与技术学院 教师

4)徐璟东 中国石油大学(北京)人工智能学院 控制科学与工程 22

5)代   琪 中国石油大学(北京)人工智能学院 控制科学与工程 20

6)夏鹏飞 东华大学 计算机科学与技术学院 22

摘要:

深度学习是一门依赖于数据的科学,传统深度学习方法假定在平衡数据集上训练模型,然而,现实世界中大规模数据集通常表现出长尾分布现象,样本数量众多的少量头部类主导模型训练,而大量尾部类样本数量过少,难以得到充分学习。本文综合梳理和分析了近年来发表在高水平会议或期刊上的文献,对长尾学习进行全面的综述。

背景与动机:

大多数真实数据集通常呈现长尾分布 (Long-tailed Distribution),即数据集中的大部分数据属于少量头部类,而大量尾部类在数据集中出现的频率极低,每类样本数量从头部到尾部呈指数递减。在模型训练过程中,头部类主导了模型参数优化过程,导致模型对头部类表现出过强的偏好。另一方面,由于尾部类包含的样本数量过少,模型对尾部类学习不充分,难以学到良好的特征表示。长尾学习适用于数据本身类分布具有稀疏性的学习场景,能够降低人工收集稀有类数据来构建平衡数据集的高昂成本,对于深度学习进一步部署于实际学习环境中有着重要意义。

主要内容:

本文从深度学习的设计流程出发,构建了一种新的长尾学习分类方法。对于图像识别领域,重采样与数据增强本质上都属于构建信息量更均衡的输入样本空间。优化特征提取器、优化分类器、logits 调整和代价敏感加权损失函数方法旨在优化模型结构或模型参数,属于优化模型空间的方法。在此基础上,解耦学习、度量学习、知识蒸馏、集成学习和层次学习通过引入辅助任务,同时优化多个空间上的任务。此外,广义长尾分布则是从多尺度建模长尾分布。在每个子类中,根据研究动机与实现手段对文献进一步细化归类。此外,本文对文本数据、语音数据等其它数据形式下的长尾学习算法进行简要评述。最后,讨论了目前长尾学习面临的可解释性较差、数据质量较低等挑战,并展望了如多模态长尾学习、半监督长尾学习等未来具有潜力的发展方向。

图1 深度长尾学习研究综述组织结构图

结论:

本文归纳与评述了长尾学习的研究现状,依据模型设计流程将图像识别领域的长尾学习算法分为优化样本空间、优化模型空间与辅助任务学习三大类,并详细分析每类长尾学习范式的研究动机与算法特点,对比了各种方法的优缺点,并对自然语言处理、时序预测等多种其它数据形式下的长尾分布任务场景进行介绍。最后,从原理解释、数据质量、模型性能、计算资源与评价指标这5个方面讨论了目前长尾学习研究的瓶颈,并提出若干个有前景的未来发展方向,为读者提供更多思路。

作者简介:

刘建伟,教师,学者。发表学术研究论文280多篇。