点击数: 更新日期: 2022-06-29
论文题目:A novel second-order learning algorithm based attention-LSTM model for dynamic chemical process modeling
录用期刊:APPLIED INTELLIGENCE (JCR Q2)
原文DOI:10.1007/s10489-022-03515-2
作者列表:
1) 徐宝昌 中国石油大学(北京)信息科学与工程学院
2) 王雅欣 中国石油大学(北京)信息科学与工程学院 博19
3) 袁力坤 中国石油大学(北京)信息科学与工程学院 博17
4) 徐朝农 中国石油大学(北京)信息科学与工程学院
文章简介:
化工过程的复杂性不断增加,辨识准确的过程模型已成为自动控制和优化设计的重要任务。针对化工过程的时间相关性、非线性、高维、强耦合等特点,本文提出了一种将时空注意力LSTM结构与二阶优化算法(STA-SO-LSTM)相结合的化工过程建模方法。首先,提出了一种二阶LSTM反向传播算法,以提高模型精度和训练速度。该优化算法利用神经元激活函数的二阶导数信息和梯度信息估计Hessian逆矩阵,无需进行困难的矩阵求逆运算。然后,考虑到不同化学过程变量之间的相关性和时间特性,采用了时空注意与LSTM相结合的模型。基于Tennessee-Eastman(TE)过程和实际分馏塔数据集的实验结果表明,LSTM与时空注意机制相结合的结构在建立动态模型方面具有良好的性能。与一些传统的和最近提出的优化算法相比,所提出的二阶算法具有更高的精度和更快的收敛速度。
设计与实现:
辨识出能够反映化工过程在各种工况下的动态和非线性特性的模型,实际上就是建立一个时间序列预测模型。与传统的辨识方法相比,神经网络可以摆脱数据可辨识性的约束,对噪声数据具有较强的鲁棒性。LSTM作为一种改进的递归神经网络(RNN),对大时滞、强耦合和高维数据具有很强的适应性。基于此,我们提出了基于工厂数据的化工过程辨识框架,如图1所示。首先,DCS获取了大量不同工况下的工艺数据,并存储在历史数据库中。将数据分为训练集和测试集,得到能够反映被控对象(即虚拟设备)非线性和动态特性的神经网络模型。然后,将特定的测试信号输入到虚拟设备中,并通过离线实验获得相应的输出。利用虚拟设备的输入输出数据,可以得到特定工作点下的对象传递函数模型,并最终用于先进控制。
图1 基于工厂数据的过程模型辨识框架
其次,为保证学习精度和较快的收敛速度,且计算成本不应过高,本文提出了一种Hessian逆递归逼近方法,该方法在不进行矩阵求逆运算的情况下估计Hessian逆,并引入了神经元激活函数的二阶导数信息。
为了充分利用数据中包含的信息,我们在LSTM结构的基础上加入了时空注意机制,并对输入的特征在空间或时间上进行加权,从而达到关注特定空间区域或时间点的目的。将时空注意力与LSTM相结合的网络结构如图2所示。
图2 时空注意力LSTM结构图
空间注意力计算公式如下:
时间注意力计算公式如下:
实验结果及分析:
本文通过在TE 过程和实际分馏器数据集上进行的比较结果,来验证所提出的辨识方法的性能。图3为本文根据LSTM设计的二阶优化算法在TE数据集上与其他一阶、二阶优化算法的对比。可以看出从收敛速度和误差两方面比较,所提优化算法具有更好的性能。表1为LSTM模型与加入时间注意力,空间注意力以及时空注意力后在TE数据集上的测试结果对比,展示了时空注意力机制与LSTM结合用于化工过程建模的优势。
图3 四种优化算法的训练误差及收敛速度对比图
表1 TE数据集上不同模型的训练与测试误差
Models
MAE
MSE
RMSE
Training
Testing
SO-LSTM
0.0998
0.1946
0.0089
0.0331
0.0944
0.1819
SA-SO-LSTM
0.0864
0.1634
0.0065
0.0222
0.0806
0.1490
TA-SO-LSTM
0.0774
0.1187
0.0052
0.0116
0.0721
0.1077
STA-SO-LSTM
0.1099
0.0046
0.0098
0.0678
0.0990
需要注意的是,实际工业数据包含许多受不可测量噪声和未知干扰影响的数据组,包括现场测量噪声、传感器漂移等。因此,基于实际工业数据的实验可以进一步证明所提出的动态化工过程建模方法的准确性和鲁棒性。图4为STA-SO-LSTM模型在延迟焦化装置的主分馏塔数据上的测试结果以及与SO-LSTM的比较,验证了本文所提方法用于实际工厂数据的良好性能。
图4 分馏塔数据集不同模型预测结果与误差的比较
另外,图5是我们的STA-SO-LSTM模型中T4014的时空注意图,该图显示了每个操作变量在不同时间对控制变量的影响。X坐标是时间步长,Y坐标是输入过程变量特征。不同的颜色代表不同大小的不同权重,绿色表示较大权重,蓝色表示较小权重。可以看出,随着预测时间的推移,时间注意权重逐渐向前移动,时间延迟约为15分钟,与经验值相似。除F4003外,其他五个输入变量对T4014有显著影响。因此表明时空注意力机制的加入提升了神经网络模型的可解释性。
(a)t+1 (b)t+2 (c)t+3
(d)t+4 (e)t+5 (f)t+6
图5 分馏塔数据集实验的时空注意力图
最后,将训练好的STA-SO-LSTM模型作为虚拟设备,利用其获得不同工况下塔顶回流流量和塔顶回流罐内温度之间的传递函数。将LSTM网络隐状态的初始值设置为对应于152°C和156°C的归一化值。然后,将塔顶回流激励信号输入模型。利用虚拟设备的输入和输出数据获得一阶传递函数(传递函数采用辅助变量法求解)。图6展示了通过虚拟设备获得的传递函数及其阶跃响应曲线(红色),以及通过实际数据获得的传递函数及其阶跃响应曲线(蓝色)。可以看出,虚拟设备得到的传递函数能够准确反映被控对象的局部线性动态特性,采用STA-SO-LSTM网络作为被控对象的虚拟模型是可行的。
图6 由虚拟设备获得的不同工况下塔顶回流流量和塔顶回流罐内温度之间的传递函数