点击数: 更新日期: 2023-04-03
中文题目:基于多个先验任务的异质图自监督对比学习
论文题目:Self-supervised Contrastive Learning for Heterogeneous Graph based on Multi-pretext Tasks
录用期刊/会议:【Neural Computing and Applications 】 (JCR Q2)
录用时间:2023.1.6
作者列表:
1) 马 帅 中国石油大学(北京)信息科学与工程学院 博 19
2) 刘建伟 中国石油大学(北京)信息科学与工程学院 自动化系 副教授
文章简介:
含有不同节点和边类型的异质图是和人们生活实际场景最为贴切的一种图数据结构类型,对于异质图的研究是当前图深度学习的热点研究领域。同时,自监督对比学习利用数据本身挖掘监督信号来训练模型,从而省去了耗时耗财的打标签操作。当前对于异质图的研究主要依赖于监督方法/半监督方法,或者是基于单个先验任务的自监督对比学习方法。在本⽂中,我们提出了基于多个先验任务的异质图自监督对比学习模型(HGMT),从而提高了模型对于图结构的理解能力,增强了模型的性能。
摘要:
随着图结构数据在实际问题中越来越普遍,图神经网络已经显示出其处理图结构数据的强大潜力。目前,含有不同节点和边类型的异质图作为一种更复杂的图结构类型是当前研究的热点。然而,现有的研究仅关注于异质图的监督方法/半监督方法。这些方法在训练模型时需要大量的标签数据,耗费大量的金钱和时间。为解决上述问题,在本文中我们提出了一个新的框架,即基于多个先验任务的异质图自监督对比学习模型(HGMT)。在我们提出的 HGMT 模型中,考虑到异质图的固有本质和属性,我们利用基于元路径的编码器和基于网络模式的编码器来获得两种不同的节点表示来构造对比样本。然后,我们设计了三个互补的先验任务,即局部-局部自监督对比学习任务、局部-上下文自监督对比学习任务和局部-全局自监督对比学习任务。这样可以使模型对异质图的局部、上下文和全局结构信息的交互关系有更深的理解。最后,我们将其视为多任务学习,通过平衡这三个先验任务来训练我们提出的 HGMT 模型。和现有的最先进算法相比,实验结果验证了我们提出的 HGMT 模型的有效性。
背景与动机:
图神经网络是深度学习的研究热点领域之一。目前,大部分图神经网络主要处理含有一种节点和边类型的同质图。然而,含有不同节点和边类型的异质图是和人们生活实际场景最为贴切的一种图数据结构。同时,在训练模型时,监督方法/半监督方法是人们经常采用的手段。在这项工作中,我们专注于对于异质图的处理,从而解决传统的图神经网络不能处理异质图的弊端。同时,我们更研究了如何利用图数据结构本身产生监督信号来训练模型,采用自监督对比学习的手段来训练模型,从而摒弃耗时耗财的打标签操作。在异质图的自监督学习中构建多个先验任务面临三个挑战。 第一个挑战是正样本和负样本的来源。在常规的对比方法中,经常使用数据增强技术。但是,在异质图中,可以利用异质图的本质特征来提取对比样本的来源。其次是设计多个先验任务的挑战,不同的先验任务可以挖掘不同的异质图结构信息。最后一个挑战是为多个先验任务设置权衡参数,合理的权衡参数可以使模型能够有效地配置每个先验任务。在这里,我们论文的动机是如何解决上述三个挑战。为此,我们为处理异质图设计了三个互补的先验任务,即局部-局部自监督对比学习任务、局部-上下文自监督对比学习任务和局部-全局自监督对比学习任务。最后,通过平衡这三个先验任务来训练模型。
设计与实现:
本框架主要分为编码、构建对比任务和联合训练三个阶段,图1为我们提出的 HGMT 模型的整体架构。我们首先采用基于元路径的编码器和基于网络模式的编码器获得节点表示,它们是正样本和负样本的来源。然后,我们构建了三个自监督对比学习任务:局部-局部对比学习任务、局部-上下文对比学习任务和局部-全局对比学习任务。最后,我们采用了联合训练的方式平衡三个自监督对比学习任务来训练模型。
图1学习框架
主要内容:
本文的主要内容可以概括如下:
(1) 我们提出了一种处理异质图的自监督对比学习框架,以摒弃手动打标签的操作。
(2) 为了提供合理和强大的监督信号,我们从基于元路径的视图和基于网络模式的视图编码节点表示。
(3) 我们设计了局部-局部对比学习任务、局部-上下文对比学习任务和局部-全局对比学习任务,从而从不同的角度挖掘异质图结构信息。
(4) 受多任务学习的启发,自适应地为三个先验任务学习合理的权衡参数来平衡这三个先验任务。
(5)在真实数据集上与基线模型相比,我们提出的HGMT模型取得了有竞争力的性能。
实验结果及分析:
为了详细研究该方法的性能,我们在多个基准数据集上进⾏了节点分类和节点聚类实验。
表1 节点分类实验结果
Macro-F1
Micro-F1
Datasets
Freebase
ACM
AMiner
DBLP
Training
(%)
20/40
60
Graph-
SAGE
45.14±4.5
44.88±4.1
45.16±3.1
47.13±4.7
55.96±6.8
56.59±5.7
42.46±2.5
45.77±1.5
44.91±2.0
71.97±8.4
73.69±8.4
73.86±8.1
54.83±3.0
57.08±3.2
55.92±3.2
49.72±5.5
60.98±3.5
60.72±4.3
49.68±3.1
52.10±2.2
51.36±2.2
71.44±8.7
73.61±8.6
74.05±8.3
HAN
53.16±2.8
59.63±2.3
56.77±1.7
85.66±2.1
87.47±1.1
88.41±1.1
56.07±3.2
63.85±1.5
62.02±1.2
89.31±0.9
88.87±1.0
89.20±0.8
57.24±3.2
63.74±2.7
61.06±2.0
85.11±2.2
87.21±1.2
88.10±1.2
68.86±4.6
76.89±1.6
74.73±1.4
90.16±0.9
89.47±0.9
90.34±0.8
SUPERVISED
HERec
55.78±0.5
59.28±0.6
56.50±0.4
55.13±1.5
61.21±0.8
64.35±0.8
58.32±1.1
64.50±0.7
65.53±0.7
89.57±0.4
89.73±0.4
90.18±0.3
57.92±0.5
62.71±0.7
58.57±0.5
57.47±1.5
62.62±0.9
65.15±0.9
63.64±1.1
71.57±0.7
69.76±0.8
90.24±0.4
90.15±0.4
91.01±0.3
HetGNN
52.72±1.0
48.57±0.5
52.37±0.8
72.11±0.9
72.02±0.4
74.33±0.6
50.06±0.9
58.97±0.9
57.34±1.4
89.51±1.1
88.61±0.8
89.56±0.5
56.85±0.9
53.96±1.1
56.84±0.7
71.89±1.1
74.46±0.8
76.08±0.7
61.49±2.5
68.47±2.2
65.61±2.2
90.11±1.0
89.03±0.7
90.43±0.6
Mp2vec
53.96±0.7
57.80±1.1
55.94±0.7
51.91±0.9
62.41±0.6
61.13±0.4
54.78±0.5
64.77±0.5
60.65±0.3
88.98±0.2
88.68±0.2
90.25±0.1
56.23±0.8
61.01±1.3
58.74±0.8
53.13±0.9
64.43±0.6
62.72±0.3
60.82±0.4
69.66±0.6
63.92±0.5
89.67±0.1
89.14±0.2
91.17±0.1
DMGI
55.79±0.9
49.88±1.9
52.10±0.7
87.86±0.2
86.23±0.8
87.97±0.4
59.50±2.1
61.92±2.1
61.15±2.5
89.94±0.4
89.25±0.4
89.46±0.6
58.26±0.9
54.28±1.6
56.69±1.2
87.60±0.8
86.02±0.9
87.82±0.5
63.93±3.3
63.60±2.5
62.51±2.6
90.78±0.3
89.92±0.4
90.66±0.5
UNSUPERVISED
DGI
54.90±0.7
53.40±1.4
53.81±1.1
79.27±3.8
80.23±3.3
80.03±3.3
51.61±3.2
54.72±2.6
55.45±2.4
87.93±2.4
88.62±0.6
89.19±0.9
58.16±0.9
57.82±0.8
57.96±0.7
79.63±3.5
80.41±3.0
80.15±3.2
62.39±3.9
63.87±2.9
63.10±3.0
88.72±2.6
89.22±0.5
90.35±0.8
GAE
53.81±0.6
52.44±2.3
50.65±0.4
62.72±3.1
61.61±3.2
61.67±2.9
60.22±2.0
65.66±1.5
63.74±1.6
90.90±0.1
89.60±0.3
90.08±0.2
55.20±0.7
56.05±2.0
53.85±0.4
68.02±1.9
66.38±1.9
65.71±2.2
65.78±2.9
71.34±1.8
67.70±1.9
91.55±0.1
90.00±0.3
90.95±0.2
HeCo
59.23±0.7
61.19±0.6
60.13±1.3
88.56±0.8
87.61±0.5
89.04±0.5
71.38±1.1
73.75±0.5
75.80±1.8
91.28±0.2
90.34±0.3
90.64±0.3
61.72±0.6
64.03±0.7
63.61±1.6
88.13±0.8
87.45±0.5
88.71±0.5
78.81±1.3
80.53±0.7
82.46±1.4
91.97±0.2
90.76±0.3
91.59±0.2
HGMT
60.79±0.4
62.89±0.6
61.48±0.7
90.72±0.7
89.38±0.8
91.21±0.6
73.69±0.6
75.89±0.7
77.78±0.6
92.87±0.3
91.69±0.3
91.93±0.4
63.24±0.7
65.80±0.5
64.36±0.7
90.32±0.6
89.60±0.7
90.13±0.8
82.76±0.7
84.34±0.8
85.65±0.8
93.54±0.3
92.67±0.4
93.78±0.3
表2 节点聚类实验结果
NMI
ARI
9.05
29.20
15.74
51.50
10.49
27.72
10.10
36.40
19.76
47.54
27.82
70.21
19.36
35.67
20.16
73.99
12.25
41.53
21.46
69.79
15.01
34.81
26.60
75.34
16.47
48.43
30.80
73.55
17.32
34.65
25.26
77.70
16.98
51.66
19.24
70.06
16.91
46.64
20.09
UNSUP
18.34
51.73
22.06
59.23
11.29
41.16
15.93
61.85
ERVIS
19.03
27.42
28.58
72.59
14.10
24.49
20.90
77.31
ED
20.38
56.87
32.26
74.51
20.98
56.94
28.64
80.17
22.49
59.93
35.73
75.04
22.87
60.02
31.78
81.43
结论:
近年来,异质图结构在现实世界中越来越普遍。同时,数据量越来越大,人工打标签非常耗时。因此,在本文中,我们提出了基于多个先验任务的异质图自监督对比学习,以使用自监督对比学习方法处理异质图。在异质图的自监督学习中构建多个先验任务面临三个挑战。 第一个挑战是正样本和负样本的来源。在常规的对比方法中,经常使用数据增强技术。但是,在异质图中,可以利用异质图的本质特征来提取对比样本的来源。其次是设计多个先验任务的挑战,不同的先验任务可以挖掘不同的异质图结构信息。最后一个挑战是为多个先验任务设置权衡参数,合理的权衡参数可以使模型能够有效地配置每个先验任务。在这里,我们论文的动机是如何解决上述三个挑战。 在HGMT模型中,我们利用基于元路径的视图和基于网络模式的视图,利用异质图本身的内在特征获得两种类型的节点表示,可以将其视为正样本和负样本的来源。然后,我们设计了三个先验任务,即局部-局部自监督对比学习任务、局部-上下文自监督对比学习任务和局部-全局自监督对比学习任务来挖掘局部结构信息、上下文结构信息和全局信息。最后,我们将 HGMT 模型视为多任务学习问题,利用动态、可调、可训练的权衡参数来平衡这些先验任务。节点分类任务和节点聚类任务的实验结果证明了我们提出的 HGMT模型 的有效性。
作者简介:
马帅,中国石油大学(北京)信息科学与工程学院 博19。主要研究异质图深度学习。
通讯作者简介:
刘建伟 自动化系博士生导师/硕士生导师。长期从事模式识别与智能系统、复杂系统分析与智能控制、机器学习和数据挖掘方面的研究工作。在国际国内期刊上和国际国内会议上发表学术研究论文260多篇,其中三大检索200多篇。