点击数: 更新日期: 2022-12-27
中文题目:不平衡数据的多臂赌博机异质集成学习
论文题目:Multi-armed Bandit Heterogeneous Ensemble Learning for Imbalanced Data
录用期刊/会议:【Computational Intelligence】 (JCR Q3)
原文DOI:10.1111/cion.12566
作者列表:
1) 代琪 中国石油大学(北京)信息科学与工程学院 博20
2) 刘建伟 中国石油大学(北京)信息科学与工程学院 自动化系 副教授
3) 杨佳鹏 华北理工大学 理学院 智能科学与技术系
背景与动机:
类不平衡问题是数据挖掘和机器学习的研究热点之一。大部分研究者在集成学习框架下,组合多个弱分类模型,构建一个性能优异、泛化能力强的强分类模型。我们更关注基分类器稳定性和多样性。在集成学习上,大部分研究者均使用先验知识为采样子集选择一种或多种重采样技术和分类器的组合。但是,在训练数据子集分布未知的情况下,预先固定重采样技术或基分类器是非常不明智的。在类不平衡学习中,可以将重采样技术和基分类器的组合作为一种选项或行为,使用多臂赌博机的思想,不断探索选择多种重采样技术与分类模型的组合。因此,借助多臂赌博机的思想,提出一种多臂赌博机的异质集成框架。
设计与实现:
MBHE异质集成框架主要分为三个阶段。算法流程图如图1所示。第一阶段我们使用bagging采样技术在训练数据集中获取多个采样子集。第二阶段使用多臂赌博机的思想,在每个训练子集上训练重采样技术和分类器组合,我们将验证集上模型组合的得分作为赌博机的收益,根据模型收益选择最佳分类器组合,并将其放入模型池中。第三阶段,使用多数投票的方式集成模型池中的基分类器。
图1 MBHE异质集成学习框架
需要注意,在这个阶段与传统的多臂赌博机存在差异。传统多臂赌博机可以理解为每个摇臂在T个训练子集上探索次,得到的奖励为,其平均奖励计算过程如下:
在集成学习中,可以使用多种集成策略组合基分类器结果。在我们的实验中,选择多数投票策略集成基分类器,其过程如下所示:
其中,表示样本的最终类标签,表示数据集的类标签,对于二分类问题而言,。表示使用不同重采样技术和基分类器建立的模型池。
实验结果及分析:
为了详细研究MBHE的分类性能,并证明DAO在F-measure和Kappa值两个评价指标下,模型的分类性能优于其他最新的过采样技术。以分层十折交叉验证的方式随机划分数据集。
表1 所有实验技术的AUC结果
表2 所有实验技术的Kappa值
我们根据表中的结果,提出的MBHE异质集成分类框架,能够地提升模型对未知样本的识别能力。与其他先进的方法相比,提出的MBHE异质集成的性能更加优秀。虽然,在部分数据集上,提出的方法并未获得最佳值,但是,可以通过调整参数或者更换分类器实现提升。此外,提出的MBHE是一个兼容性很强的学习框架。在整个实验框架中,并没有使用先验知识选择重采样技术或基分类器。因此,针对不同的应用领域,都可以根据需要调整模型,甚至是其他集成分类模型都可以使用。
最后,根据实验结果可以看出,单纯使用一种方法对训练集进行预处理并不是一个合理的选择。如果在模型构建过程中,选择的重采样技术和基分类器并不合适,则分类器模型很难获得最佳性能。因此,提出的MBHE异质集成分类框架可以为bagging采样子集提供更优的模型选择,并且可以获得更优秀的分类性能。
结论:
类不平衡问题普遍存在于生活的各个领域。在MBHE框架中,针对框架中的某类问题已经提出一些解决问题的方法。但是,并没有一种强大而有效的方法能够将所有模型结合起来使用。针对这个问题,我们探索使用多臂赌博机的思想尝试提出一种多臂赌博机异质集成框架。该框架能够兼容大部分重采样技术或基分类器。实验结果表明,提出的MBHE异质集成框架明显优于其他常用的或先进的集成分类模型。另外,无论选择AUC还是Kappa作为评估度量,我们提出的MBHE异质集成框架显著优于其他方法。
通讯作者简介:
刘建伟, 博士生导师/硕士生导师。从事模式识别与智能系统、复杂系统分析与智能控制、机器学习和数据挖掘方面的研究工作。在国际国内期刊上和国际国内会议上发表学术研究论文200多篇。