当前位置：主页 > 学术动态 >

SWSEL：类不平衡问题的滑动窗口选择集成学习

点击数: 更新日期: 2023-03-14

中文题目：SWSEL：类不平衡问题的滑动窗口选择集成学习

论文题目：SWSEL: Sliding Window-based Selective Ensemble Learning for Class-imbalance Problems

录用期刊/会议：【Engineering Applications of Artificial Intelligence】 (JCR Q1-Top)

原文DOI：10.1016/j.engappai.2023.105959

录用/见刊时间：2023.2.14

封面图片：

作者列表：

1）代琪中国石油大学（北京）信息科学与工程学院控制科学与工程博20

2）刘建伟中国石油大学（北京）信息科学与工程学院自动化系教师

3）杨佳鹏华北理工大学理学院智能科学与技术

摘要:

集成学习是解决类不平衡问题的常用方法，它们在训练数据集上建立多个分类器系统，提高少数类样本的识别精度。滑动窗口是目前处理流数据常用的方法。很少有研究者使用滑动窗口选择多数类样本，并构建集成学习模型。传统的集成学习方法通过过采样或欠采样使用部分或所有的多数类样本进行建模。然而，他们也会继承预处理方法的缺陷。因此，在本文中，我们尝试使用相似度映射方式，构建多数类样本的伪序列，充分使用所有现有的多数类样本，提出一种新颖的滑动选择集成学习方法(SWSEL)，用于处理类不平衡问题。

背景与动机:

传统的重采样技术可能会造成多数类信息丢失或少数类样本过拟合的问题。然而，使用重采样技术的集成学习并不能完全覆盖样本空间，他们通过使用多数类样本子集或大规模扩大少数类样本空间提升基分类器的多样性。因此，这类技术的局限性也很明显，他们在建模的过程中存在难以准确选择重采样技术或泛化能力差的问题。我们提出的SWSEL集成学习方法能够在保证模型准确性和稳定性的前提下，提升基分类器的多样性，从而提升集成模型的分类性能。

设计与实现:

该方法可以简单的划分为四个主要的计算过程。第一阶段，是多数类序列生成阶段。第二阶段，我们称之为中心点样本对齐阶段。该阶段使用欧氏距离度量少数类中心与多数类样本之间的距离，确定滑动窗口的初始位置。进入第三阶段后，我们将这个阶段称之为基分类器模型池生成阶段。在这一阶段中，从第二阶段确定的滑动窗口初始位置开始，按照设置的滑动方向，获得模型池中的基分类器。在第四阶段中，我们使用距离选择的方式，选择符合距离约束的基分类器，构建最终的集成分类模型。

图1 SWSEL在滑动过程中存在的特殊情况说明

Case 1：如果少数类样本数

为奇数，则在多数类标记样本的序列前段和后段分别选择选择

个样本。如图1(a)所示。

Case 2：如果少数类样本数

为偶数，则在多数类标记样本的序列前段选择

个样本，而在标记样本序列后段选择

个样本。如图1(b)所示。

Case 3：如果序列前端或序列后端出现样本数量不足时，则将不足位置的前端或后端的所有样本放入训练集中，而另一侧按照(1)和(2)的方式选择样本。如图2(c)所示。

Case 4：如果前后都有多余的样本，则先向前滑动，滑动结束后，再回到对齐原点，向后滑动选择样本。样本的选择过程与(1)和(2)相同。如图1(d)所示。

实验结果及分析:

限于篇幅原因，仅给出与其他先进模型的对比实验的部分结果。SWSEL的全部实验及参数分析内容等具体内容请参考原文。在整个实验中，我们使用了28个真实世界的二分类不平衡数据集。这些数据集来自KEEL和HDDT两个数据库，其中ism、phoneme、pendigits和letter来自HDDT数据库，其余的则来自KEEL数据库。

表1 使用SVM作为基分类器时，所有模型的AUC和G-mean

表2 使用MLP作为基分类器时，所有模型的AUC和G-mean

表3 使用RF作为基分类器时，所有模型的AUC和G-mean

根据表1-表3的实验结果，当使用SVM、MLP和RF三个模型作为基分类器时，SWSEL的性能是优于或部分优于先进的集成分类模型的。但是，对于不平衡比(IR)较低的数据集或使用稳定性较好的模型而言，SWSEL的性能并不比其他的集成学习模型更优，反而容易受到模型的影响。获得的集成结果偏向于某些分类器结果，导致模型的性能有所下降。

结论:

集成学习方法主要是在保证基分类器稳定性的前提下，进一步提升基分类器多样性。但是当基分类器过于多样化时，反而会引起集成分类模型性能明显降低。在我们提出的SWSEL集成分类算法中，能够提升模型的多样性，从而进一步提升整个集成模型的分类性能。由于我们提出的SWSEL使用滑动选择的方式扰动样本空间，然后使用距离选择的方式减少基分类器数量，因此，对于多数类样本距离较近的数据集，我们提出的方法导致选择的基分类器过于集中，反而会降低集成分类器的分类性能。