当前位置: 主页 > 学术动态 >

基于模糊层次子空间的不平衡数据序贯三支规则类重叠欠采样

点击数:   更新日期: 2022-10-05

中文标题:基于模糊层次子空间的不平衡数据序贯三支规则类重叠欠采样

论文标题: Sequential three-way rules class-overlap under-sampling based on fuzzy hierarchical subspace for imbalanced data

录用时间: 2022910

录用会议: the 29th International Conference on Neural Information Processing (ICONIP 2022) CCF-C类会议

作者列表:

1) 代琪 (中国石油大学(北京) 信息科学与工程学院 自动化系) 控制科学与工程 20

2) 刘建伟 (中国石油大学(北京) 信息科学与工程学院 自动化系)

3) 杨佳鹏 (华北理工大学 理学院 智能科学与技术系)

背景与动机:

不平衡数据是机器学习和数据挖掘领域的研究重点。不平衡数据存在严重的类分布失衡。因此,传统分类模型不能有效地表示不平衡数据的结构特征,难以确定数据集的真实分类边界,导致分类模型偏向多数类,严重影响传统分类器的分类性能。近年来,在不平衡数据挖掘领域已经做了大量的研究,提出了许多解决方案。相关研究表明,当数据集不存在类重叠问题时,类分布对分类性能的影响很小。最新的类重叠欠采样方法认为距离少数类样本越近的多数类样本,重叠的概率越高。但对于高度不平衡数据而言,这样的假设显然不成立,因为在高度不平衡数据集中,少数类样本很少,以这样的方式剔除样本并不彻底。

粒计算(Granular Computing, GrC)是当前模拟人类计算思维及解决问题的新方法,其中数据信息粒的计算及信息粒化是粒计算研究领域的关键问题。受粒计算和序贯三支决策的启发,提出一种模糊层次子空间序贯三支规则类重叠欠采样。该方法使用粒计算的思想发现数据集中边界区域的潜在重叠样本,提升基分类器的分类性能。本文的主要贡献如下:

1) 给出模糊欧氏距离,并构建模糊层次子空间结构。

2) 根据模糊层次子空间中,构建序贯三支规则,形成原始粒结构。

3) 在类重叠欠采样方法中,使用马氏距离保留等价类中多数类样本信息

设计与实现:

S3RCU方法大致可分为三个阶段:模糊层次子空间构建、序贯三支规则划分和欠采样。算法流程图如图1所示。



1 S3RCU的计算流程图

第一阶段:构建模糊层次子空间

Step 1 由于样本原始特征存在量纲不同、取值范围不同等问题,根据经验选取柯西分布函数作为算法的隶属函数,对样本特征值进行模糊化处理。

Step 2 利用模糊欧氏距离计算特征间的模糊距离,模糊欧氏距离定义如下:

Step 3 利用模糊欧氏距离的结果,构建特征间的模糊相似矩阵。

Step 4 根据模糊相似矩阵由小到大选择距离值构建层次结构,根据层次子空间结构获得子空间。

第二阶段:确定序贯三支规则

根据模糊层次子空间结构,逐步添加层次子空间间中的特征,处理划分为边界域的样本,使其形成互为等价类。并根据三支规则将等价类分别放入隔离域,边界域和冗余域中。

第三阶段:类重叠欠采样

从粒计算的角度而言,二元关系和聚类都是粒化的常用方法,因此,这两种方法有共同之处。在我们的算法中,边界区域中的等价类是独立的,因此,我们保留等价类中的距离等价类中心马氏距离最远的多数类样本。此外,为了进一步缩小冗余域中多数类样本规模,同样保留离等价类中心最远的多数类样本作为等价类的代表,并将其放入训练集中。

结论:

首先,对于不平衡率较低的数据集,S3RCU 可能会删除更多的多数实例,从而导致全局多数实例的性能下降。如果数据集中的特征值差异很小,S3RCU 往往会忽略潜在的重叠实例或删除过多的多数实例。其次,S3RCU在数据集上构造一个模糊子空间,利用序贯决策构建三规则,可以在划分过程中逐步发现潜在的重叠实例。此外,我们在边界区域保留了部分多数实例信息,可以降低欠采样导致的信息丢失风险。最后,根据表 4 中的结果,我们观察到对于 F-measureS3RCU 的性能与 CNN NB-TL 相当,但没有统计学意义。此外,我们观察到对于 KappaS3RCU 的性能优于其他五种算法,并且具有统计学意义。

通讯作者简介:

刘建伟,副教授,博士生导师/硕士生导师。长期从事模式识别与智能系统、复杂系统分析与智能控制、机器学习和数据挖掘方面的研究工作。美国数学会《数学评论》评论员,中国人工智能学会机器学习分会高级会员。在计算机学报,自动化学报、计算机研究与发展、Neurocomputing、TNNLS等期刊上和国内国际会议上发表学术研究论文200多篇,其中三大检索150多篇。联系方式:liujw@cup.edu.cn