中文题目:ESA-GCN :基于ENN-SMOTE采样和注意力机制的类不平衡节点分类方法
论文题目:ESA-GCN: An Enhanced Graph-Based Node Classification Method for Class Imbalance Using ENN-SMOTE Sampling and an Attention Mechanism
发表期刊:Applied Sciences (JCR Q2)
原文DOI:10.3390/app14010111
作者列表:
1)张丽英 中国石油大学(北京)信息科学与工程学院/人工智能学院 软件工程系教师
2)孙海航 中国石油大学(北京)信息科学与工程学院/人工智能学院 计算机技术 硕士 21
重采样注意力图卷积网络(ESA-GCN)模型结合ENN-SMOTE重采样和注意力机制,解决类不平衡图节点分类问题。ENN-SMOTE综合采样方法,在减少多数类节点的同时,增加少数类节点,使得数据集更加均衡;并且ENN算法通过删除低质量、嘈杂的样本数据实现有效地降低分类器的错误率,提高分类器的性能稳定性;在为新节点与原始节点之间生成边的阶段引入注意力机制,充分考虑节点之间的相互关系,并且只对一部分关键信息进行高权重的集中处理,实现提高分类准确率的同时大大降低模型参数和计算量。在三个公共数据集上进行的实验表明,ESA-GCN对于类不平衡图节点分类任务中取得了显著的成果。
背景与动机:
图节点中的类别不平衡问题在现实世界的任务中普遍存在,如欺诈检测、假用户检测、恶意软件检测等。这个问题显著影响了对这些少数类别的分类器性能,但在这个领域的研究还相对有限。因此不平衡节点分类问题已成为一个重要的研究方向。针对图数据过采样时边的生成不准确、少数类表达能力不足以及存在噪声样本等问题,本文提出了ESA-GCN模型。
ESA-GCN的主要思想是在基于图神经网络(GNN)的特征提取器获得的表达性嵌入空间中,采用一系列的采样和边生成技术来改善不平衡数据集上的节点分类性能。ESA-GCN由四个部分组成:基于GNN的特征提取器、重采样模块、边生成器和基于GNN的节点分类模块。ESA-GCN模型原理框架如图1所示。
ESA-GCN能够充分利用图神经网络的特征提取能力和增强样本均衡的策略,提升在不平衡数据集上的节点分类效果。ESA-GCN的创新之处在于综合运用了欠采样、过采样和边缘生成技术,来提高不平衡图数据中的节点分类问题的解决能力。
图1 ESA-GCN架构图
本研究选用了三个公共数据集进行实验,并选择了四个基准模型进行比较,具体实验结果如表1所示。
表1 性能对比表
本文进行了消融实验,分别研究了增加ENN欠采样、注意力机制以及同时增加ENN欠采样和注意力机制对模型性能的影响,实验结果如表2所示。
表2 消融实验结果表
本文分析了不同算法在不同欠采样邻居数下的性能,以评估欠采样邻居数对模型性能的影响,结果见图2。
图2 AUC-ROC与F1-Macro随欠采样邻居变化图
本文对不同算法在不同不平衡率下的性能进行了分析,以评估它们的鲁棒性,实验结果如图3至图5所示。
图3 Cora数据集调整不平衡率时的AUC-ROC与F1-Macro变化
图4 Citeseer数据集调整不平衡率时的AUC-ROC与F1-Macro变化
图5 PubMed数据集调整不平衡率时的AUC-ROC与F1-Macro变化
本文通过实验评估了不同算法在不同损失权重λ下的性能变化,并进行了相应的分析,具体实验结果见图6至图8。
图6 Cora数据集调整超参数时的AUC-ROC与F1-Macro变化
图7 Citeseer数据集调整超参数时的AUC-ROC与F1-Macro变化
图8 PubMed数据集调整超参数时的AUC-ROC与F1-Macro变化
本文提出了一种新的模型ESA-GCN,旨在解决不平衡节点分类问题。具体而言,该模型在图数据中采用ENN-SMOTE采样方法来平衡原始图数据,并且减少了噪声样本对模型的影响。此外,该模型引入了注意力机制来调整每个节点的重要性,并重新生成边,更准确的构建图结构。为了验证该模型的有效性,我们在三个常用的公共数据集(Cora、Citeseer、PubMed)上进行了实验。实验结果表明,与传统的GCN算法相比,该模型在AUC-ROC和F1-Macro指标方面都取得了显著的改进。
张丽英,讲师,中国石油大学(北京)信息科学与工程学院/人工智能学院硕士导师。主要研究方向:机器学习、时空数据挖掘。主持并参与国家自然基金、校级基金和校外开放基金、中石油勘探开发课题10多项。发表论文7余篇,其中被SCI、EI检索4篇。教学工作主持教育部产学合作协同育人项目、校级核心课程/重点教改项目等10多项,出版教材两部。
联系方式:lyzhang1980@cup.edu.cn