点击数: 更新日期: 2022-11-29
中文题目:三系杂交的类不平衡正样例增强
论文题目:Class-imbalanced Positive Instances Augmentation via Three-line Hybrid
录用期刊/会议:Knowledge-based Systems ( JCR Q1 TOP)
原文DOI:https://doi.org/10.1016/j.knosys.2022.109902
录用时间:2022年9月13日
作者列表:
1)代琪 (中国石油大学(北京) 信息科学与工程学院 2020级博士)
2)刘建伟 (中国石油大学(北京) 信息科学与工程学院 自动化系)
3)杨佳鹏(华北理工大学 理学院 智能科学与技术系)
背景与动机:
类不平衡问题是工业领域和学术领域的重点研究问题之一。数据预处理技术是独立于分类器的数据层面技术。很多研究表明,这类技术能够与不同的分类器结合使用,具有很强的泛化能力。传统过采样技术,仅仅使用正样例进行增强,并没有使用任何负类信息。当正样例数量过少时,很容易造成正样例过度聚集,使分类器出现过拟合。Mixup方法是一种用于图像增强的混合增强算法。他们使用简单的混合方式,实现两类样本的混合,有利于提升图像识别的准确率。该算法在图像识别领域广泛使用。受Mixup图像增强算法和三系杂交水稻繁育过程的启发,提出一种新的启发式算法,称为三系杂交的正样例增强技术(THPIA)。THPIA技术能够有效地利用负样例信息,从而提升增强的正样例的多样性。此外,使用距离约束控制正样例的增强范围,防止在负类区域生成噪声样本,降低分类器性能不增反降的风险。
模型结构:
图1 THPIA的计算流程图
THPIA的计算过程分为三个阶段,第一阶段:杂交合成无标签样本,第二阶段:正样例与无标签样本杂交及子代选择,第三阶段:获得增强后的训练集。THPIA的流程图如图1所示。需要注意的是,图1中的圆圈表示每个样本的特征,红色箭头指向的位置是假设发生交叉或变异的特征,在实际模型中,使用随机选择样本的特征。蓝色的线条表示在第一阶段合成无标签样本的过程,而深色线条表示的外部循环为第二阶段合成最终伪正样例的过程。
实验结果及分析
为了进一步说明我们算法的有效性,我们使用AUC、G-mean和F1-Score三种评估度量,评价THPIA与其他先进过采样方法之间的性能差异。以十折交叉验证的测试集均值作为模型的最终得分。在实验中,使用MLP、SVM、CART和5NN四种分类器,在20个公开数据集上验证数据增强方法的有效性。此外,使用SMOTE、ROSE、SSO、MWMOTE、CDSMOTE、SMOTE-IPF和SMOTE-LOF七种先进的正样例增强技术作为对比增强方法。只给出MLP和SVM两种分类器的结果,表1为MLP的实验结果,表2为SVM的实验结果。
表1 在所有数据集上使用MLP得分
表1 在所有数据集上使用SVM得分
在20个公开数据集上的实验结果表明,提出的THPIA增强算法能够有效地提升模型对未知样本的识别能力。与CDSMOTE等先进的重采样技术相比,THPIA的性能更加优秀,且具有很强的竞争力。但是,当选择F1-Socre作为评估度量时,THPIA的性能并不理想,其性能与其他重采样技术相当。根据实验结果可以看出,对于高度不平衡数据集而言,单纯使用正样例信息合成伪样本,虽然在一定程度上能够提升模型的分类性能,但是,他们合成的伪正样例过度集中,很容易引起过拟合问题。因此,THPIA能够使用负样例信息,能够避免合成的正样例过度集中,并能有效地提升合成样本的多样性。
论文小结
THPIA正样例增强算法,能够有效地利用负样例的信息,从而进一步提升合成的伪正样例的多样性,提升分类模型的分类性能。实验结果表明,对于MLP而言,THPIA的性能明显优于其他重采样技术,这个假设在非参数检验过程中得到证实。在AUC度量下,当选择SVM作为基分类器时,THPIA与MWMOTE的性能相当。根据实验结果,我们可以发现,THPIA是一次非常有意义的尝试,当正类样本数量较少时,可以在约束条件下,适当引入负类信息是一种避免过拟合的可行方法。此外,与Mixup算法一样,THPIA的计算复杂度很低,且易于实现,能够使决策边界从一个类到另一个类线性转变,进一步提升模型识别少数类的识别精度。
关于通讯作者
刘建伟,副教授,博士生导师/硕士生导师。长期从事模式识别与智能系统、复杂系统分析与智能控制、机器学习和数据挖掘方面的研究工作。美国数学会《数学评论》评论员,中国人工智能学会机器学习分会高级会员。在计算机学报,自动化学报、计算机研究与发展、Neurocomputing、TNNLS等期刊上和国内国际会议上发表学术研究论文200多篇,其中三大检索150多篇。联系方式:liujw@cup.edu.cn