当前位置: 主页 > 学术动态 >

基于元路径和结构信息的异质图自监督学习

点击数:   更新日期: 2023-05-16

中文题目:基于元路径和结构信息的异质图自监督学习

论文题目:Self-supervised Learning for Heterogeneous Graph via Structure Information based on Metapath

录用期刊:【Applied Soft Computing (JCR Q1,TOP)

原文DOI10.1016/j.asoc.2023.110388

原文链接:https://doi.org/10.1016/j.asoc.2023.110388

录用时间:2023.05.06

封面图片:



封面摘要:为了摒弃传统监督学习和半监督学习中人工打标签的操作,本文在异质图中研究了利用其自身的结构信息和特有的元路径属性,提出一种基于元路径和结构信息的异质图自监督学习方法

作者列表:

1   中国石油大学(北京)信息科学与工程学院 19

2 刘建伟 中国石油大学(北京)信息科学与工程学院 自动化系 副教授

3   中国石油大学(北京)信息科学与工程学院 自动化系

文章简介:

在现实世界中,图结构数据越来越普遍。特别是作为特殊的图结构类型异构图是当前研究的热点问题异构优势在于可以对各种类型的节点和实体之间多样的交互关系进行建模目前,对异构图的研究多采用监督/半监督学习方法,这两种学习方法都必须使用大量的标签数据。但在某些场景中,获取标签是昂贵且具有挑战性的。最近,自监督学习方法可以从数据本身自发地生成监督信息成为解决这个问题有前途的手段。因此,研究异构图上的自监督学习方法非常重要。在本文中,我们提出了一种新颖的基于元路径结构信息异构图自监督学习模型SESIM,它不仅可以解决手动打标签的问题,还可以充分挖掘异构图的结构信息以此来增强模型的表达能力

摘要:

图神经网络 (GNN) 是通过学习节点的嵌入表示来建模和处理图结构数据的重要方法。传统针对GNN的训练方式依赖于大量的标签数据,这样既费时又费钱。同时在一些特殊的场景下,给数据打标签甚至是不能实现的自监督表示学习可以利用图结构数据本身生成标签,是解决这个问题的一种潜在方法。但转向研究异构图的自监督学习问题比处理同构图更具挑战性,相关研究也较少。在本文中,我们提出了一种基于元路径和结构信息的异构图自监督学习方法SESIM 首先,我们构建伪标签来训练先验任务,利用数据本身的属性信息来摒弃耗时的手动打标签操作。接着,我们利用传统的图神经网络模型来聚集节点特征,获得高质量的节点嵌入。然后,利用这些节点嵌入设计主要任务和先验任务。先验任务,即预测每个元路径中节点之间的跳跃数,这样可以提高主要任务的表达能力。此外,预测每个元路径中的跳跃数可以有效地利用图结构信息这是节点的基本属性。因此,SESIM加深了模型图结构的理解。最后,我们联合训练主要任务和先验任务,并平衡先验任务对主要任务的贡献。我们提出SESIM模型的主要优点是研究了异构图的自监督学习,以解决获取标签耗时耗财的问题。并且我们设计了一个新颖先验任务,即预测各个节点在每个元路径中跳跃数。实验结果验证了SESIM方法的性能,证明该方法可以提高传统神经网络对链路预测任务和节点分类任务的表达能力。

设计与实现:

本框架主要分为三个阶段。学习框架如图1所示。第一阶段我们利用异质结构信息构建伪标签。第二阶段使用传统的图神经网络来学习节点嵌入。第三阶段,利用构建好的伪标签和节点嵌入表示进行自监督学习。



1学习框架

主要内容:

本文的主要内容总结如下:

1. 目前在异构图上针对自监督学习的研究少。因此,在本文中,我们利用基于异构图结构信息的自监督学习方法设计了处理异构图的 SESIM 模型,该模型可以自发地从异构图本身构建监督信息,以解决费时费财的人工打标签问题。

2. 在我们提出的 SESIM 模型中,我们利用异构图结构信息设计了一个新颖的先验任务,即预测节点间在每个元路径中的跳跃数,这使得模型可以进一步利用图结构特性以使其对异构图结构有更深入的理解。同时,我们采用了联合训练的方法来训练主要任务和先验任务,并平衡了先验任务对主任务的贡献。

3. 我们利用五个公共数据集进行链预测任务、节点分类任务和其他对比实验,以验证SESIM模型的性能。实验结果表明,我们设计的先验任务可以提高主要任务的性能和GNN的表达能力,充分证明了SESIM模型的有效性。

实验结果及分析:

为了验证我们提出的SESIM模型的性能我们在五个公共数据集进行链预测任务节点分类任务

1 链路预测任务结果

Last-FM

Book-Crossing

AUC-peak

AUC-mean

AUC-peak

AUC-mean

Vanilla

SESIM

Vanilla

SESIM

Vanilla

SESIM

Vanilla

SESIM

GCN

78.96

80.23

78.56

79.89

70.09

71.84

69.76

71.36

GAT

80.83

81.66

80.21

81.39

68.46

69.76

68.06

69.16

GIN

81.66

82.06

81.13

81.73

69.56

70.69

69.16

70.06

GTN

76.98

77.93

76.46

77.52

67.96

69.35

67.63

68.81

SGC

75.67

77.33

75.06

76.71

68.29

69.76

67.83

69.09

FastGCN

79.38

80.68

78.89

80.09

67.83

69.35

68.78

68.87

GWNN

80.23

81.94

79.79

81.43

66.98

68.34

66.44

67.81

2 节点分类任务Macro-F1结果

IMDB

ACM

DBLP

Average- increase

Vanilla

SESIM

Vanilla

SESIM

Vanilla

SESIM

GCN

50.46

52.67

88.37

91.68

91.68

92.17

2.00

GAT

51.69

52.98

86.96

87.86

89.61

92.98

1.85

GIN

49.65

50.36

85.37

87.64

88.62

90.76

1.71

GTN

48.85

51.68

87.56

90.94

90.83

93.25

2.88

SGC

50.97

51.71

86.79

90.68

88.68

89.83

1.93

FastGCN

49.86

50.84

88.65

89.74

89.07

91.87

1.62

GWNN

50.76

52.47

87.06

90.67

90.14

93.76

2.98

Average- increase

——

1.49

——

2.64

——

2.36

——

3 节点分类任务Micro-F1结果

IMDB

ACM

DBLP

Average- increase

Vanilla

SESIM

Vanilla

SESIM

Vanilla

SESIM

GCN

53.76

57.16

88.07

91.16

92.59

93.70

2.53

GAT

54.39

55.81

86.47

87.73

91.34

93.17

1.50

GIN

52.86

54.39

84.76

87.03

90.38

92.41

1.94

GTN

53.46

55.71

87.51

90.74

92.17

93.97

2.43

SGC

55.37

53.76

86.27

90.60

90.05

90.76

1.14

FastGCN

53.68

54.97

88.47

89.38

89.81

92.83

1.74

GWNN

52.71

54.82

86.91

90.60

91.86

93.98

2.64

Average- increase

——

1.48

——

2.68

——

1.80

——

结论:

在本文中,我们提出了一种新颖的基于元路径结构信息异构图自监督学习SESIM模型具体来说,SESIM通过预测每个元路径中节点之间的跳跃次数来构建监督信息,将其作为先验任务增强主要任务的性能。 因此,SESIM 可以使传统的图神经网络在聚合节点表示和利用图结构信息方面具有更好的学习能力。实验结果证明,我们提出的SESIM模型是一种有效的异构图自监督学习算法,优于传统的链路预测任务和节点分类任务方法。最后,我们还讨论了元路径数量、跳跃数量和先验任务对下游任务的影响尽管我们提出的SESIM模型在链路预测任务和节点分类任务上取得了良好的性能,但仍然存在一些局限性。 例如,动态图作为一种图结构也广泛应用于各种场景,其最重要的属性是节点和边的数量可以随时间变化。但是我们提出的SESIM模型为静态图结构类型设计不能处理动态图。因此,在未来的工作中,我们考虑将时变信息添加到网络中以处理动态图。同时,在将来的工作中我们将继续研究异构图上的自监督学习,通过设计合理的先验任务,探索更多来自图数据本身有价值的监督信息。

作者简介:

  马帅中国石油大学(北京)信息科学与工程学院19。主要研究图神经网络,尤其是自监督学习在异质图上的应用

通讯作者简介:

刘建伟。从事模式识别与智能系统、复杂系统分析与智能控制、机器学习和数据挖掘方面的研究工作。在国际国内期刊上和国际国内会议上发表学术研究论文260多篇

1