当前位置: 主页 > 学术动态 >

基于多个先验任务的异质图自监督对比学习

点击数:   更新日期: 2023-04-03

中文题目:基于多个先验任务的异质图自监督对比学习

论文题目Self-supervised Contrastive Learning for Heterogeneous Graph based on Multi-pretext Tasks

录用期刊/会议:【Neural Computing and Applications (JCR Q2)

录用时间:2023.1.6

作者列表

1 马  中国石油大学(北京)信息科学与工程学院 19

2 刘建伟 中国石油大学(北京)信息科学与工程学院 自动化系 副教授

文章简介:

含有不同节点和类型的异质图是和人们生活实际场景最为贴切的一种图数据结构类型,对于异质图的研究是当前图深度学习的热点研究领域。同时,自监督对比学习利用数据本身挖掘监督信号来训练模型,从而省去了耗时耗财的打标签操作。当前对于异质图的研究主要依赖于监督方法/半监督方法或者是基于单个先验任务的自监督对比学习方法。在本中,我们提出了基于多个先验任务的异质图自监督对比学习模型(HGMT,从而提高了模型对于图结构的理解能力,增强了模型的性能

摘要:

随着图结构数据在实际问题中越来越普遍,图神经网络已经显示出其处理图结构数据的强大潜力。目前,含有不同节点和类型的异质图作为一种更复杂的图结构类型是当前研究的热点。然而,现有研究仅关注异质图的监督方法/半监督方法。这些方法在训练模型时需要大量标签数据,耗费大量金钱和时间。为解决上述问题,在本文中我们提出了一个新的框架,即基于多个先验任务的异图自监督对比学习模型HGMT。在我们提出的 HGMT 模型中,考虑到异质图固有本质和属性,我们利用基于元路径的编码器和基于网络模式的编码器来获得两种不同的节点表示来构造对比样本。然后我们设计了三个互补的先验任务,即局部-局部自监督对比学习任务、局部-上下文自监督对比学习任务和局部-全局自监督对比学习任务这样可以使模型异质图的局部、上下文和全局结构信息的交互关系有更深的理解。最后,我们将其视为多任务学习,通过平衡这三个先验任务来训练我们提出的 HGMT 模型。现有的最先进算法相比,实验结果验证了我们提出的 HGMT 模型有效性

背景与动机:

图神经网络是深度学习的研究热点领域之一。目前,大部分图神经网络主要处理含有一种节点和类型的同质图。然而,含有不同节点和类型的异质图是和人们生活实际场景最为贴切的一种图数据结构。同时,在训练模型时,监督方法/半监督方法是人们经常采用的手段。在这项工作,我们专注于对于异质图的处理从而解决传统的图神经网络不能处理异质图的弊端同时,我们更研究了如何利用图数据结构本身产生监督信号来训练模型,采用自监督对比学习的手段来训练模型,从而摒弃耗时耗财的打标签操作。在异质图的自监督学习中构建多个先验任务面临三个挑战。 第一个挑战是正样本和负样本的来源。在常规的对比方法中,经常使用数据增强技术。但是,在异质图中,可以利用异质图的本质特征来提取对比样本的来源。其次是设计多个先验任务的挑战,不同的先验任务可以挖掘不同的异质图结构信息。最后一个挑战是为多个先验任务设置权衡参数,合理的权衡参数可以使模型能够有效地配置每个先验任务。在这里,我们论文的动机是如何解决上述三个挑战。为此,我们为处理异质图设计了三个互补的先验任务,即局部-局部自监督对比学习任务、局部-上下文自监督对比学习任务和局部-全局自监督对比学习任务最后,通过平衡这三个先验任务来训练模型。

设计与实现:

本框架主要分为编码、构建对比任务和联合训练三个阶段1为我们提出的 HGMT 模型的整体架构。我们首先采用基于元路径的编码器和基于网络模式的编码器获得节点表示,它们是正样本和负样本的来源。然后,我们构建了三个自监督对比学习任务:局部-局部对比学习任务、局部-上下文对比学习任务和局部-全局对比学习任务。最后,我们采用联合训练方式平衡三个自监督对比学习任务训练模型



1学习框架

主要内容:

本文的主要内容可以概括如下:

(1) 我们提出了一种处理异质图的自监督对比学习框架,以摒弃手动打标签的操作。

(2) 为了提供合理和强大的监督信号,我们从基于元路径的视图和基于网络模式的视图编码节点表示

(3) 我们设计了局部-局部对比学习任务、局部-上下文对比学习任务和局部-全局对比学习任务,从而从不同的角度挖掘异质图结构信息。

(4) 受多任务学习的启发,自适应地为三个先验任务学习合理的权衡参数来平衡这三个先验任务。

(5)在真实数据集上与基线模型相比,我们提出的HGMT模型取得了有竞争力的性能。

实验结果及分析:

为了详细研究该方法的性能,我们在多个基准数据集上进节点分类和节点聚类实验

1 节点分类实验结果

Macro-F1

Micro-F1

Datasets

Freebase

ACM

AMiner

DBLP

Freebase

ACM

AMiner

DBLP

Training

(%)

20/40

60

20/40

60

20/40

60

20/40

60

20/40

60

20/40

60

20/40

60

20/40

60

Graph-

SAGE

45.14±4.5

44.88±4.1

45.16±3.1

47.13±4.7

55.96±6.8

56.59±5.7

42.46±2.5

45.77±1.5

44.91±2.0

71.97±8.4

73.69±8.4

73.86±8.1

54.83±3.0

57.08±3.2

55.92±3.2

49.72±5.5

60.98±3.5

60.72±4.3

49.68±3.1

52.10±2.2

51.36±2.2

71.44±8.7

73.61±8.6

74.05±8.3

HAN

53.16±2.8

59.63±2.3

56.77±1.7

85.66±2.1

87.47±1.1

88.41±1.1

56.07±3.2

63.85±1.5

62.02±1.2

89.31±0.9

88.87±1.0

89.20±0.8

57.24±3.2

63.74±2.7

61.06±2.0

85.11±2.2

87.21±1.2

88.10±1.2

68.86±4.6

76.89±1.6

74.73±1.4

90.16±0.9

89.47±0.9

90.34±0.8

SUPERVISED

HERec

55.78±0.5

59.28±0.6

56.50±0.4

55.13±1.5

61.21±0.8

64.35±0.8

58.32±1.1

64.50±0.7

65.53±0.7

89.57±0.4

89.73±0.4

90.18±0.3

57.92±0.5

62.71±0.7

58.57±0.5

57.47±1.5

62.62±0.9

65.15±0.9

63.64±1.1

71.57±0.7

69.76±0.8

90.24±0.4

90.15±0.4

91.01±0.3

HetGNN

52.72±1.0

48.57±0.5

52.37±0.8

72.11±0.9

72.02±0.4

74.33±0.6

50.06±0.9

58.97±0.9

57.34±1.4

89.51±1.1

88.61±0.8

89.56±0.5

56.85±0.9

53.96±1.1

56.84±0.7

71.89±1.1

74.46±0.8

76.08±0.7

61.49±2.5

68.47±2.2

65.61±2.2

90.11±1.0

89.03±0.7

90.43±0.6

Mp2vec

53.96±0.7

57.80±1.1

55.94±0.7

51.91±0.9

62.41±0.6

61.13±0.4

54.78±0.5

64.77±0.5

60.65±0.3

88.98±0.2

88.68±0.2

90.25±0.1

56.23±0.8

61.01±1.3

58.74±0.8

53.13±0.9

64.43±0.6

62.72±0.3

60.82±0.4

69.66±0.6

63.92±0.5

89.67±0.1

89.14±0.2

91.17±0.1

DMGI

55.79±0.9

49.88±1.9

52.10±0.7

87.86±0.2

86.23±0.8

87.97±0.4

59.50±2.1

61.92±2.1

61.15±2.5

89.94±0.4

89.25±0.4

89.46±0.6

58.26±0.9

54.28±1.6

56.69±1.2

87.60±0.8

86.02±0.9

87.82±0.5

63.93±3.3

63.60±2.5

62.51±2.6

90.78±0.3

89.92±0.4

90.66±0.5

UNSUPERVISED

DGI

54.90±0.7

53.40±1.4

53.81±1.1

79.27±3.8

80.23±3.3

80.03±3.3

51.61±3.2

54.72±2.6

55.45±2.4

87.93±2.4

88.62±0.6

89.19±0.9

58.16±0.9

57.82±0.8

57.96±0.7

79.63±3.5

80.41±3.0

80.15±3.2

62.39±3.9

63.87±2.9

63.10±3.0

88.72±2.6

89.22±0.5

90.35±0.8

GAE

53.81±0.6

52.44±2.3

50.65±0.4

62.72±3.1

61.61±3.2

61.67±2.9

60.22±2.0

65.66±1.5

63.74±1.6

90.90±0.1

89.60±0.3

90.08±0.2

55.20±0.7

56.05±2.0

53.85±0.4

68.02±1.9

66.38±1.9

65.71±2.2

65.78±2.9

71.34±1.8

67.70±1.9

91.55±0.1

90.00±0.3

90.95±0.2

HeCo

59.23±0.7

61.19±0.6

60.13±1.3

88.56±0.8

87.61±0.5

89.04±0.5

71.38±1.1

73.75±0.5

75.80±1.8

91.28±0.2

90.34±0.3

90.64±0.3

61.72±0.6

64.03±0.7

63.61±1.6

88.13±0.8

87.45±0.5

88.71±0.5

78.81±1.3

80.53±0.7

82.46±1.4

91.97±0.2

90.76±0.3

91.59±0.2

HGMT

60.79±0.4

62.89±0.6

61.48±0.7

90.72±0.7

89.38±0.8

91.21±0.6

73.69±0.6

75.89±0.7

77.78±0.6

92.87±0.3

91.69±0.3

91.93±0.4

63.24±0.7

65.80±0.5

64.36±0.7

90.32±0.6

89.60±0.7

90.13±0.8

82.76±0.7

84.34±0.8

85.65±0.8

93.54±0.3

92.67±0.4

93.78±0.3

2 节点聚类实验结果

NMI

ARI

Datasets

Freebase

ACM

AMiner

DBLP

Freebase

ACM

AMiner

DBLP

SUPERVISED

Graph-

SAGE

9.05

29.20

15.74

51.50

10.49

27.72

10.10

36.40

HERec

19.76

47.54

27.82

70.21

19.36

35.67

20.16

73.99

HetGNN

12.25

41.53

21.46

69.79

15.01

34.81

26.60

75.34

Mp2vec

16.47

48.43

30.80

73.55

17.32

34.65

25.26

77.70

DMGI

16.98

51.66

19.24

70.06

16.91

46.64

20.09

75.34

UNSUP

DGI

18.34

51.73

22.06

59.23

11.29

41.16

15.93

61.85

ERVIS

GAE

19.03

27.42

28.58

72.59

14.10

24.49

20.90

77.31

ED

HeCo

20.38

56.87

32.26

74.51

20.98

56.94

28.64

80.17

HGMT

22.49

59.93

35.73

75.04

22.87

60.02

31.78

81.43

结论:

近年来,异质结构在现实世界中越来越普遍。同时,数据量越来越大,人工打标签非常耗时。因此,在本文中,我们提出了基于多个先验任务的异质自监督对比学习,以使用自监督对比学习方法处理异质图。在异质图的自监督学习中构建多个先验任务面临三个挑战。 第一个挑战是正样本和负样本的来源。在常规的对比方法中,经常使用数据增强技术。但是,在异质图中,可以利用异质图的本质特征来提取对比样本的来源。其次是设计多先验任务的挑战不同的先验任务可以挖掘不同的异质图结构信息。最后一个挑战是为多先验任务设置权衡参数合理的权衡参数可以使模型能够有效地配置每个先验任务。在这里,我们论文的动机是如何解决上述三个挑战。 HGMT模型中,我们利用基于元路径的视图和基于网络模式的视图,利用异质本身的内在特征获得两种类型的节点表示,可以将其视为正样本和负样本的来源。然后,我们设计了三个先验任务,局部-局部自监督对比学习任务、局部-上下文自监督对比学习任务和局部-全局自监督对比学习任务来挖掘局部结构信息、上下文结构信息和全局信息。最后,我们将 HGMT 模型视为多任务学习问题,利用动态、可调、可训练的权衡参数来平衡这些先验任务。节点分类任务和节点聚类任务的实验结果证明了我们提出的 HGMT模型 的有效性。

作者简介:

  马帅中国石油大学(北京)信息科学与工程学院 19。主要研究异质图深度学习

通讯作者简介:

刘建伟 自动化系博士生导师/硕士生导师。长期从事模式识别与智能系统、复杂系统分析与智能控制、机器学习和数据挖掘方面的研究工作。在国际国内期刊上和国际国内会议上发表学术研究论文260多篇,其中三大检索200多篇。