当前位置：主页 > 学术动态 >

类不平衡问题的距离映射重叠复杂度度量

点击数: 更新日期: 2024-07-01

中文题目：类不平衡问题的距离映射重叠复杂度度量

论文题目：Distance Mapping Overlap Complexity Metric for Class-Imbalance Problems

录用期刊/会议：【Applied Soft Computing】 (中科院大类1区，JCR Q1 Top)

原文DOI：https://doi.org/10.1016/j.asoc.2024.111904

原文链接：

https://www.sciencedirect.com/science/article/pii/S1568494624006781

录用/见刊时间：2024.06.21

封面图片：

作者列表：

1）代琪中国石油大学（北京）人工智能学院控制科学与工程博20

2）刘建伟中国石油大学（北京）人工智能学院自动化系教师

3）施永辉华北理工大学理学院

摘要:

类不平衡问题的数据复杂度是数据挖掘领域的热点。经典的数据复杂性度量方法使用kNN等技术，计算每个样本的最近邻。但是，基于kNN的方法获取所有样本的最近邻是一个NP难问题，不利于大规模数据复杂度计算。为了解决这个问题，分别从全局和局部两个角度提出四种距离映射复杂度度量方法，将这类复杂度称为距离映射重叠指数(DMOI)。首先，使用马氏距离或标准化欧氏距离计算样本到数据集中心点的距离，并按照每个样本的距离大小排序。然后，根据有序标签向量，遍历搜索每一类的映射割点数。最后，根据不同类的映射割点数，计算数据集的DMOI。在50个类不平衡数据集上的实验表明，提出的方法优于最新的针对类不平衡问题的复杂度度量方法。虽然对于基于规则或树的分类器，DMOI与ONB相比，仍然存在差距，但是，使用皮尔逊相关系数表明，DMOI能够有效地近似ONB，且它们之间存在强正相关性。

背景与动机:

数据的复杂性度量方法致力于评估训练数据集复杂程度。类重叠问题是影响分类器的重要数据问题之一。目前的研究表明，当数据集中类重叠和类不平衡问题同时存在时，分类器的性能将会受到严重的影响。对于数据集的重叠程度的度量方法并未形成统一的标准度量方法。

特征重叠度度量方法主要是衡量个体特征之间的重叠程度。在使用这类重叠度度量方法之前，我们默认特征之间是不存在相关性的。然而，这样的情况在实际应用中并不多见。结构重叠度量方法主要是搜索数据集中的结构特征估计数据集的类重叠程度。然而，传统的结构重叠度度量方法主要是通过暴力搜索的方式，遍历整个数据集。当面临大规模数据集时，暴力搜索并不可取。通常我们认为样本之间的相似性或距离越小，则样本之间越容易出现类重叠问题。

在重叠度度量方法中，通过使用距离函数映射的方式，搜索数据集中存在的重叠问题。在距离映射向量上，如果不同类的样本交织在一起，则表明它们更有可能位于相同的区域中。因此，首次使用距离映射的方式，提出一种估计数据集的全局类重叠复杂度的方法。通过移除数据集的某一个特征，从理论上证明了数据集的特征子空间中，仍然存在潜在的重叠问题。为了避免忽略特征之间的相关性，我们进一步提出一种从局部特征子空间的角度估计数据集的类重叠程度的方法。

设计与实现:

提出的距离映射重叠复杂度度量（DMOI）的示意图如下所示。

主要内容:

在提出的DMOI方法中，主要分为三个阶段：距离映射与排序、映射割点数计算和重叠指数计算。注意，MDOI和SEDMOI两种方法除了距离度量方法存在差异之外，其具有相同的计算过程。

在第一阶段中，计算数据集中的所有样本的距离值，并获取整个数据集的有序距离向量。

第二阶段，根据有序距离向量中样本的原始索引值，记录有序距离向量中样本的标签信息。根据标签索引与有序距离向量对应，获得样本的有序标签向量。然后，根据有序标签向量计算数据集中每个类的样本的映射割点数。

第三阶段，分别提出全局距离映射重叠指数(DMOI-G)和局部距离映射重叠指数(DMOI-L)。

实验结果及分析:

在50个不平衡数据集上进行对比实验，并计算分类结果与复杂度度量方法之间的皮尔逊相关系数，实验结果如下所示。

不同评估度量与复杂度度量方法之间的皮尔逊相关系数：

(a)G-mean (b)Kappa

(c)AUC (d)MCC

图1 不同评估度量与复杂度度量之间的皮尔逊相关系数

复杂度之间的相关性如下所示：

表1 复杂度度量之间的相似性

结论:

DMOI是一种快速的数据重叠复杂度度量方法，在该方法中，根据不同的距离函数，提出两种复杂度度量方法。为了考虑数据集中样本间的相关性，使用局部多粒度子空间思想，从全局和局部两个视角，全面评估数据集的复杂程度。实验结果表明，DMOI计算获得的数据重叠程度与非规则归纳分类器的性能呈现强负相关性，而对于规则归纳分类器而言，ONBavg的近似能力更好。此外，ONBavg的计算复杂度较高，不适合在大规模数据集上使用。实验结果表明，DMOI系列的方法能够有效地近似ONBavg的计算结果，并且呈现出明显的正相关性。

作者简介:

代琪自动化系2020级博士研究生。

通讯作者简介:

刘建伟，教师，学者。