点击数: 更新日期: 2022-11-22
中文题目:不平衡数据的距离排序过采样技术
论文题目:Distance-based Arranging Oversampling Technique for imbalanced data
录用期刊/会议:Neural Computing and Applications (JCR-Q2)
原文链接:https://link.springer.com/content/pdf/10.1007/s00521-022-07828-8
录用时间:2022年9月6日
作者列表:
代 琪 (中国石油大学(北京) 信息科学与工程学院 2020级博士)
刘建伟 (中国石油大学(北京) 信息科学与工程学院 自动化系)
赵佳亮(华北理工大学 理学院 智能科学与技术系)
背景与动机:
类不平衡问题普遍存在于真实世界的各个领域。合成少数类过采样(SMOTE)技术是处理类不平衡数据集的重要预处理技术。该算法在合成样例之前,需要用户设置最近邻样例的数量,这往往是难以准确设置的。另外,该算法使用线性插值技术在两个互为最近邻的正样本间生成新的伪正样例,如果正样例集密度较大,过于集中,则容易引起模型过拟合或在负类区域中合成噪声正样例,导致分类器性能出现严重下降。为此,受MAHAKIL在软件缺陷预测领域的启发,本文提出一种新颖的基于距离排序的过采样技术(DAO)。DAO能够有效避免用户选择不准确的超参数,而且该方法也能够作为基础算法替换以SMOTE为基础的过采样技术。通过设置距离约束条件过滤合成样本,避免在多数类区域中生成重叠样本。此外,在DAO过采样技术中,根据不同的采样方向,给出四类不同的采样技术。在现实应用中如果与不同的度量方法结合,可以获得数量庞大的成体系的过采样技术族。
模型结构:
最小距离差过采样(DAO-Min)
前向过采样(DAO-For)
后向过采样(DAO-Rev)
双向过采样(DAO-Bid)
图1 四种不同的采样方向
如图1所示,在DAO过采样技术中,给出四种不同的采样方向,其中,图1(a)表示在生成的样例序列中选择与锚定样例距离差值最小的样例进行采样;图1(b)表示在生成的样例序列中,直接选择锚定样例前向最近的样例进行采样;图1(c)表示在生成的样例序列中直接选择锚定样例的后向最近样例进行采样;图1(d)表示在生成的样例序列中,对锚定样例的前向和后向的最近样例均进行采样。
实验结果及分析
为了详细研究DAO的分类性能,并证明DAO在F-measure和Kappa值两个评价指标下,模型的分类性能优于其他最新的过采样技术。以分层十折交叉验证的方式随机划分数据集,然后将不同的采样方式看作是模型的超参数,选择两种不同度量方式下的最优过采样方法与SMOTE、Kmeans-SMOTE、SVMSMOTE、A-SUWO和MWMOTE五种过采样技术在25个基准数据集上进行对比实验。除了K-means SMOTE过采样技术有所调整之外,其余算法均使用库中的默认参数。
表1 所有过采样技术的F-measure (CART)
表2 所有过采样技术的Kappa值(CART)
在25个公开数据集上的实验结果表明,距离排序的过采样技术的整体性能优于或部分优于其他过采样技术。仔细分析提出的四个采样方向,仍然是最小距离差过采样(DAO-Min)和双向过采样(DAO-Bid)占有优势。如果数据集存在严重类重叠时,前向过采样(DAO-For)将不适用,因为该方法可能会加重类重叠问题,但是对于边界少数类信息较少时,我们可以选择前向过采样技术增加边界少数类信息。
论文小结
SMOTE虽然可以降低过拟合风险,但是需要手动设置最近邻数量,当最近邻数量过小,则可能导致合成样例与原始数据较近,合成冗余少数类样例增加过拟合风险。当最近邻数量过大,则可能在多数类区域中合成噪声样例。因此,我们提出的过采样方法使用马氏距离或标准化欧氏距离排序,避免用户手动设置最近邻样例,而且给出的四种不同的采样方向可以有效避免合成过于接近的样例,有效提升了合成样例的多样性。但是,提出的DAO过采样技术具有一定的局限性。DAO使用的距离度量方法只能计算数值型数据,对于非数值型数据,DAO并不适用。另外,DAO在计算样本距离值时,认为所有特征是同等重要的,这在现实世界中是需要认真考虑。
关于通讯作者
刘建伟,副教授,博士生导师/硕士生导师。长期从事模式识别与智能系统、复杂系统分析与智能控制、机器学习和数据挖掘方面的研究工作。美国数学会《数学评论》评论员,中国人工智能学会机器学习分会高级会员。在计算机学报,自动化学报、计算机研究与发展、Neurocomputing、TNNLS等期刊上和国内国际会议上发表学术研究论文200多篇,其中三大检索150多篇。联系方式:liujw@cup.edu.cn