中文题目:基于图卷积神经网络的节点分类方法研究综述
论文题目:基于图卷积神经网络的节点分类方法研究综述
录用期刊/会议:计算机科学 (CCF中文B类)
原文DOI:10.11896/jsjkx.230600071
原文链接:http://www.Jsjkx.com
封面摘要:节点分类任务是图分析领域的关键研究主题,近年来,随着图卷积网络(GCN)的深入研究和广泛应用,GCN驱动的节点分类技术和应用均实现了显著进展。本文综述了基于GCN的节点分类方法,从图概念和任务定义入手,介绍常用数据集,探讨谱域与空间域GCN,分析面临的挑战。进一步,从模型与数据两方面对当前研究进展进行分类总结,最终展望未来研究方向。
作者列表:
1) 张丽英 中国石油大学(北京)信息科学与工程学院/人工智能学院 软件工程系
2) 孙海航 中国石油大学(北京)信息科学与工程学院/人工智能学院 计算机技术 硕21
3) 孙玉发 石油工业出版社有限公司
4) 石兵波 中国石油勘探开发研究院
文章简介:
本文综述了基于图卷积网络(GCN)的节点分类研究,强调了其在多个研究领域中的基础性和广泛应用价值。文章首先界定了节点分类问题和面临的挑战,然后从模型和数据集两方面探讨了GCN在节点分类中的挑战,在模型角度,包括梯度消失、过平滑、动态图处理、异构图适用性和大规模图处理等问题,在数据集角度,包括数据噪声和数据不平衡问题,本文从这些角度总结了基于GCN的节点分类领域的研究成果,并展望了未来的研究方向,旨在为后续研究提供参考。
摘要:
节点分类任务是图分析领域的关键研究主题,近年来,随着图卷积网络(GCN)的深入研究和广泛应用,GCN驱动的节点分类技术和应用均实现了显著进展。本文综述了基于GCN的节点分类方法,从图概念和任务定义入手,介绍常用数据集,探讨谱域与空间域GCN,分析面临的挑战。进一步,从模型与数据两方面对当前研究进展进行分类总结,最终展望未来研究方向。
背景与动机:
图数据,由节点(实体)和边(实体间关系)组成,是富含信息的数据结构,长期以来成为研究焦点。图数据研究涵盖节点分类、图分类、聚类和链路预测等多个任务,其中节点分类特别重要,它涉及对未标记节点的识别分类,广泛应用于社交网络分析、垃圾邮件检测和文献分类等。节点特征提取还可助力聚类、链接预测和可视化任务。近年,受卷积神经网络(CNN)影响,图卷积网络(GCN)成为图节点分类的核心研究方法。本文综述了基于GCN的节点分类研究,探讨现有研究、面临的问题和挑战,展望未来研究方向。
主要内容:
GCN的优点在于可以捕捉图的全局信息,从而很好地表示节点的特征。但GCN在节点分类任务上也面临着一些挑战,下面分别从模型视角和数据集视角来综述GCN在节点分类中存在的问题。
一、模型角度:
1. 增加深度可能导致梯度消失和过度平滑,限制性能。针对GCN增加深度会导致梯度消失和过平滑问题的研究进展,见表1。这些方法可概括为设计更优深层网络的方法和设计更优提取特征的方法。
表1 梯度消失和过平滑问题的研究
Table 1 Research on gradient disappearance and over smoothing
方法类型 |
代表工作 |
基本思想 |
设计更优深层网络方法 |
DeepGCN[27], AdaGCN[28] |
设计更优将前一层的特征连接到下一层的方法,提升梯度有效传递和网络的表达能力。 |
设计更优特征提取方法 |
Cluster-GCN[20], N-GCN[29] |
设计更优特征提取方法,如:归一化的方式与划分子图等。 |
2. GCN对动态图支持不够。GCN的全局信息聚合和对特定图结构的依赖限制了其在动态图中的应用。解决该问题的研究进展可概括为两个方面,见表2。
表2 在动态图上的应用研究
Table 2 Application Research on Dynamic Graph
方法类型 |
代表工作 |
基本思想 |
引入时间维度 |
STGCN, EvolveGCN |
在GCN中加入时间维度,利用RNN或者LSTM等模型来处理时间信息。 |
引入注意力机制 |
DySAT, TGAT |
引入注意力机制来处理不同时间节点的信息。 |
3. 适用异构图的GCN研究有待深入。GCN在处理包含不同类型节点和边的异构图方面仍待深入研究。使用GCN的优势来解决异构图的节点分类研究工作可概括为两方面,见表3。
表3 在异构图上的应用研究
Table 3 Application Research on Heterogeneous Graph
方法类型 |
代表工作 |
基本思想 |
多层次信息融合方法 |
R-GCN, HAN |
将不同类型节点间的关系进行融合。 |
跨领域知识迁移方法 |
CD-GNN, HGCC |
采用跨领域知识迁移方法来增强异构图节点分类性能。 |
4. GCN难以扩展到现实应用中的大型图中。GCN的内存需求限制了其在大型图应用中的扩展。针对大型图的节点分类问题,目前的研究工作可归纳为3类方法,见表4。
表4 在大规模网络上的应用研究
Table 4 Application Research on Large Scale Network
方法类型 |
代表工作 |
基本思想 |
引入邻居采样的方法 |
GraphSAGE[8] |
对每个节点的邻居采样。 |
引入层采样的方法 |
FastGCN[21], ASGCN[19] |
使用分层采样,避免邻域指数扩散。 |
引入子图采样的方法 |
Cluster-GCN[20], GraphSAINT[39] |
通过子图采样方法加速训练过程。 |
二、数据集质量方面:
1. 图数据中的噪声和缺失问题影响GCN的性能。针对该问题,基于GCN模型开展的研究工作可概括为两大方面,见表5。
表5 GCN针对数据集质量问题的改进
Table 5 GCN improvement for dataset quality problems
方法类型 |
代表工作 |
基本思想 |
融合图滤波器的方法 |
SGC,SBGC, BGCN |
过滤掉高频噪声来平滑图上节点的特征。 |
引入对抗学习的方法 |
AT-GCN, RGCN |
通过对抗学习使模型更具鲁棒性,能处理对抗性攻击和误差数据。 |
2. 高度不平衡的图数据对节点分类构成挑战。已有研究可总结为3方面,见表6。
表6 在不平衡数据集上的应用
Table 6 Application on Unbalanced Data Set
方法类型 |
代表工作 |
基本思想 |
数据级方法 |
GraphSMOTE, GraphMixup,Imgagn, GraphENS |
使用过采样或下采样技术使数据类别分布更加平衡。 |
算法级方法 |
DR-GCN, GNN-INCM, Boosting-GNN |
修改模型的底层学习或决策过程以处理类不平衡问题。 |
混合方法 |
DPGNN, GNNCL |
将数据级和算法级方法结合起来。 |
结论:
节点分类问题不仅是很多研究领域的基础问题, 而且有着广泛的应用, 具有重要的研究价值。总的来说, 本文对近年来基于 GCN 的节点分类领域的研究进行了综述, 总结了已有方法以及未来可研究的方向, 希望能为进一步的研究提供一定的参考价值。
未来基于GCN的节点分类研究方向包括但不限于以下方面:
1. 改进深层GCN架构:开发新型卷积核、优化子图划分和利用外部信息以解决梯度消失和过平滑问题。
2. 动态图多任务学习:设计GCN多任务学习框架,优化节点分类和边预测等任务的联合学习。
3. 异构图跨域集成:研究跨域链接对节点分类的影响,提高GCN模型的跨域数据集成与分类能力。
4. 大规模图处理:开发并行算法和有效的采样技术,提高大型图上GCN模型的训练效率和GPU利用率。
5. 解决数据的噪声问题:设计结构优化的模型,结合噪声处理技术,提升GCN对数据集噪声的抵抗能力。
6. 解决数据不平衡问题:采用数据级、算法级和混合级方法,从不同角度提高少数类节点的分类准确性。
这些方向旨在提高GCN在节点分类任务中的性能,解决现有模型面临的挑战,以及扩展GCN在更多领域的应用潜力。
作者简介:
张丽英,讲师
中国石油大学(北京)信息科学与工程学院/人工智能学院硕士生导师。主要研究方向:机器学习、时空数据挖掘。
联系方式:lyzhang1980@cup.edu.cn