中文题目:带变量标识符的多变量长程鲁棒预测模型
论文题目:An Enhanced Multivariate long-term Time Series Robust Forecasting Model with Distinguishable Variable Identifier
录用期刊/会议:中国自动化大会 (CAA A类会议)
录用时间:2024.9.19
作者列表:
1) 何洋洋 中国石油大学(北京)人工智能学院 控制工程 研22级
2) 刘建伟 中国石油大学(北京)人工智能学院 自动化系 教师
摘要:
最近,在多变量长期序列预测领域,线性模型受益于通道独立性(CI)的训练策略,表现优于之前大多数基于transformer的模型,并质疑注意力机制捕捉时间依赖性的能力。为了重新获得Transformer的主导地位,我们进一步改进了基于块的Transformer模型,但也有文章指出基于CI设计的模型存在空间不可区分的缺陷。为了解决这个问题,我们专门为Transformer模型设计了变量标识符(VD),赋予它变量区分能力。而且,我们学习到的变量标识符还可以大致描述变量之间的相似度。此外,为了提高模型抵抗数据噪声干扰的能力,防止模型发生过拟合噪声,采用了一种新的损失函数,融合了MSE和MAE损失函数的优点。为了进一步提高模型的性能,同时不增加额外的计算量,受计算机视觉的启发,设计了一种多尺度CNN结构。该模型优于最近提出的线性模型和基于transformer的SOTA模型,在广泛使用的开源数据集上的广泛实验表明,与最先进的方法相比,该模型的性能最高提高了4.4%。
背景与动机:
时间序列预测作为常见的时间序列任务之一,包括但不限于时间序列的分类、预测、填充和异常检测,广泛应用于能源、农业、工业、金融等领域,旨在通过过去的历史序列预测一个时间步(单步预测)或多个时间步(多步预测)的未来序列值。时间序列预测有着悠久的历史。近年来,由于深度学习方法无需人工特征的端到端训练优势,基于深度学习的时间序列预测方法逐渐成为主流。基于深度学习的长期时间序列预测方法主要包括RNN(如LSTM、GRU)、CNN、Transformer等。
尽管模型结构越来越复杂,但令人惊讶的是,单层线性模型在预测精度方面优于几乎所有更复杂的基于transformer的模型,并且具有极简的模型结构,这使其成为一个强大的基线模型。这让人们开始思考时间序列预测是否需要复杂的Transformer模型,这也启发人们设计更多基于mlp的模型来代替Transformer,如TS-mixer,这是谷歌的MLP-Mixer模型在时间序列预测中的一个成功应用。最近,由Nie等人提出的基于transformer的模型PatchTST对时间序列进行单独的patch(类似于计算机视觉中的Vit),并使用实例归一化方法来大大提高预测结果,以应对zheng等人提出的问题。Lin等人也利用了补丁和多步并行预测技术来获得良好的性能。PatchTST虽然效果较好,但对不同信道的时间序列采用信道独立(CI)和参数共享的策略,导致存在空间不可区分的缺陷。解决这个问题的一个自然的想法是分别对不同的特征变量序列进行建模,但这将导致O(C)的计算复杂度,其中C代表整个输入的时间序列(通道)的数量,我们使用的数据集最大有321个特征,这不仅消耗大量的资源,而且实验效果有时比单个模型整体的效果更差。Shao等人提出通过附加身份信息很好地解决了这个问题。然而,该模型过于简单,拟合能力不足,且嵌入操作会导致隐藏层维数成倍增加,并可能耗费不必要的计算资源。在本文中,以类似于位置嵌入的方式将变量身份信息融入到嵌入(VD)表示中可以缓解这一问题,尽管Chen等人对线性模型的时间序列预测能力进行了理论分析,表明线性模型在捕获线性依赖方面仍然具有明显的优势,但我们将通过实验表明,VD信息的直接添加对基于transformer的模型比线性模型更友好。此外,虽然Shao等人也将时间不可区分性作为模型性能的关键瓶颈,但对于长期时间序列,历史窗口越长,发生该问题的可能性越小,因此本文不考虑该问题。
主要内容:
针对多变量时间序列预测中的空间不可区分问题,设计了一种新的VD (learnable channel embedding)嵌入方法。为了提高模型的鲁棒性,采用Huber损失函数来克服MSE损失函数对异常值过于敏感的缺点。 本文尝试设计一种多尺度CNN变体来提取多尺度特征。 本文提供了一个关于补丁嵌入的新视角和解释。实验表明,该设计显著提高了模型性能,在71%的实验中达到了最先进的性能。
图1 模型结构
该模型包括一个抵抗分布偏移的REVIN、一个多尺度CNN、一个特别设计的变量标识符,以及一个具有残差注意力分数的增强transformer。
结论:
在本文中,为了突破以往模型的性能瓶颈,创新性地设计了变量标识符,使模型能够有效区分不同变量。提出了一种CNN风格的嵌入,并从趋势-季节分解提供了一个新的分析视角来解释为什么多尺度CNN是有效的。此外,我们重新设计了损失函数,以减轻噪声数据的影响。实验结果表明,该模型在大部分实验中取得了较好的效果。
作者简介:
刘建伟,教师,学者。