当前位置: 主页 > 学术动态 >

基于线性归一化注意力机制的神经霍克斯过程

点击数:   更新日期: 2022-10-07

中文标题:基于线性归一化注意力机制的神经霍克斯过程

论文标题:Linear Normalization Attention Neural Hawkes Process

录用时间:202296

录用期刊:Neural Computing and Applications Q1

作者列表:

1) 宋志妍 (中国石油大学(北京) 信息科学与工程学院 2019硕士

2) 刘建伟 (中国石油大学(北京) 信息科学与工程学院 自动化系)

3) 杨洁 (中国石油大学(北京) 信息科学与工程学院 2022级硕士)

4) 张鲁宁 (中国石油大学(北京) 信息科学与工程学院 2018级博士)

背景与动机:

随着互联网的发展和大数据时代的正式到来,人们以电子形式记录、存储和处理数据,而现实生活中的大量数据是异步事件序列数据。对于异步事件序列的建模,神经点过程是主流的解决方案之一。随着对神经点过程的研究越来越深入,为了提高模型的预测精度,模型的复杂度不能高估,或者选择的模型本身具有更多的非线性。例如,基于注意力机制的神经点处理会导致模型非常复杂。同时,随着深度学习的发展,人们发现传统的多层感知器具有巨大的潜力。现在已经提出了很多不包含注意力机制仅由纯多层感知机构建的模型架构,效果反而更加优异受此启发,本研究基于在神经点过程模型中得到广泛应用的霍克斯过程模型,提出了基于线性归一化注意力机制的霍克斯过程(LNAHP),此模型有效地提高了预测性能,降低了计算成本

模型结构:

LNAHP模型的核心思想是利用线性前馈神经网络的全局表示和位置感知能力,用计算冗余来代替transformer编码器结构中的点积注意力,并使用两个级联的线性层和一个归一化操作来形成线性归一化注意力(LNA),如图1所示



图1 LNAHP的MLNA框架

异步事件序列中最重要的两个可用信息是发生时间和时间类型,因此,我们必须将序列映射到事件类型和发生时间的编码中,才能充分掌握序列信息。我们使用位置信息的编码作为时间嵌入向量,使用每个事件类型的独热编码嵌入矩阵的乘积作为事件类型嵌入向量如图2所示序列嵌入向量是发生时间的嵌入向量和事件类型嵌入向量的总和。得到序列编码后,我们将其送入LNAHP的多头线性归一化注意力(MLNA)块,如图3所示最后我们将MLNA的输出送入两个级联的前馈神经网络,以获得异步事件序列的隐藏表示。



图2 序列嵌入示意图



2 MLNA示意图

论文小结:

在本研究中,我们提出了一种新的神经霍克斯过程模型,称为基于线性归一化注意力机制的神经霍克斯过程模型。具体而言,我们使用线性归一化注意力来代替transformer神经霍克斯过程模型中的点积注意力,来降低模型的复杂度,提高模型的计算效率。在此模型中,我们通过使用更少的可训练参数来实现良好的模型性能,从未提高模型预测和拟合的性能。最后,为了评估我们提出模型的有效性,我们在两个人工数据集和四个真实数据集上进行了对比实验和消融实验。实验结果表明本文提出的LNAHP模型有效地节省了计算成本,此外,消融实验也进一步验证了线性归一化注意力机制的有效性。

关于通讯作者:

刘建伟,副教授,博士生导师/硕士生导师。长期从事模式识别与智能系统、复杂系统分析与智能控制、机器学习和数据挖掘方面的研究工作。美国数学会《数学评论》评论员,中国人工智能学会机器学习分会高级会员。在计算机学报,自动化学报、计算机研究与发展、Neurocomputing、TNNLS等期刊上和国内国际会议上发表学术研究论文200多篇,其中三大检索150多篇。联系方式:liujw@cup.edu.cn