当前位置：主页 > 学术动态 >

基于最大均值差异领域泛化的化工过程智能辨识方法

点击数: 更新日期: 2023-09-11

中文题目：基于最大均值差异领域泛化的化工过程智能辨识方法

论文题目：Intelligent Identification Method of Chemical Processes Based on Maximum Mean Discrepancy Domain Generalization

录用期刊/会议：Journal of the Taiwan Institute of Chemical Engineers (JCR Q1)

原文DOI：10.1016/j.jtice.2023.105075

原文链接：https://doi.org/10.1016/j.jtice.2023.105075

录用/见刊时间： 2023.07.28录用 2023.08.07线上发表

封面图片：

封面摘要：由于环境影响、化学反应过程的复杂和可变性以及工况变化等原因，化工过程数据的统计特征往往会随着时间的推移而变化。而基于独立同分布假设的深度学习方法获得的模型对此类分布变化的过程数据具有敏感性。基于此，本文提出了一种基于最大均值差异领域泛化的智能辨识方法。

作者列表：

1）王雅欣中国石油大学（北京）信息科学与工程学院控制科学与工程专业博19

2）徐宝昌中国石油大学（北京）信息科学与工程学院自动化系教师

3）庞聪蕊中国石油大学（北京）信息科学与工程学院控制科学与工程专业硕23

摘要:

得益于工厂分布式控制系统中存储的大量过程数据，使用深度学习方法辨识化工过程已被广泛研究。然而，由于环境影响、化学反应过程的复杂性和可变性以及操作条件的变化引起的随机干扰，化工过程数据的统计特征往往会随着时间的推移而变化。而基于独立同分布假设的深度学习方法获得的模型对此类分布变化的过程数据具有敏感性。提出了一种基于多域多核最大均值差异（MD-MK-MMD）领域泛化的智能辨识方法。首先，以最大均值差异分割辨识数据，以最大化辨识数据分布中的差异。然后，采用MD-MK-MMD域泛化方法来减少分布差异并学习模型参数。基于门递归单元（GRU）模型，结合MD-MK-MMD领域泛化，构建了一个化工过程智能辨识框架。在加热炉和分馏塔的实际过程数据集上的实验验证了所提出的化工过程辨识框架的有效性，证明该方法降低了模型对辨识数据分布变化的敏感性。

背景与动机:

化工过程数据是典型的具有因果关系的时间数据。近年来，由于工厂分布式控制系统（DCS）和神经网络（NN）具有复杂的非线性拟合能力，已经获取并存储了大量的过程数据，许多学者研究了基于深度学习的化工过程智能辨识、故障诊断、特性预测和软测量方法。具体而言，以循环神经网络（RNN）及其各种在时间序列上具有显著优势的改进版本被广泛应用于化工过程建模。然而，经典的深度学习方法遵循训练集和测试集独立同分布（i.i.d）的假设。由于操作条件的变化、环境影响引起的随机干扰以及化学反应过程的复杂性和可变性，化工过程数据的统计特征可能会随着时间的推移而变化。因此，直接训练的RNN在面对未知数据分布时可能会经历模型转换。这种非平稳的时间序列不可避免地导致深度学习方法的泛化能力较差。本文提出了基于GRU网络的MD-MK-MMD领域泛化化工过程智能辨识方法，最大限度利用工业过程数据中不同分布的公共知识，以确保模型在不同样本分布下的准确性。

设计与实现:

1在基于深度学习的化工过程辨识中，考虑了不同操作条件下时间序列分布变化的问题。采用领域泛化方法来降低模型对辨识数据分布变化的敏感性。

2受最大熵原理的启发，通过最大化MD-MK-MMD距离对过程数据进行分割，使数据在不同时期的分布多样性最大，并将数据分割问题被描述为一个优化问题。

3给出了基于GRU网络的MD-MK-MMD领域泛化化工过程智能辨识方法的具体步骤。

4从不同的分割、不同的测量距离和不同的神经网络模型三个方面对实际炼油厂数据集进行了实验。

主要内容:

1）化工过程辨识问题描述

考虑具有p个操纵变量和q个被控变量的化工过程。首先，定义待辨识模型：

其中，定义如下的输出向量：

输入向量为：

2）化工过程时间协方差漂移（CPTCS）

给定包含m个过程输入时间序列及其相应过程输出的数据集C。假设C可以划分为r个片段，即C={C1, … , Cr} 。CPTCS是指第i个分段内的所有时间序列都遵循相同的数据分布，对于不同的分段，边际分布和联合分布不同。

3）数据分割

具体而言，通过求解方程中所示的优化问题，对化工过程的连续数据进行拆分，将每个片段的分布差异转化为离散的、可计算的分布差异。

4）MK-MMD距离及简化表示

核函数采用RBF核，

将单核替换为使用不同带宽计算相应的核矩阵，并将所有核矩阵相加

5）MD-MK-MMD领域泛化方法

定义P’表示跨r个域的概率分布，Pi分别表示域xi, 的概率分布。分布差异可以写成

因此，为了最小化上式的上确界，MD-MK-MMD正则化项定义为

将正则化项应用于NN模型中隐藏层的最后一层输出，那么上式可以表示为

MD-MK-MMD领域泛化方法的总体目标函数定义为

6）化工过程智能辨识框架

图1 辨识框架

实验结果及分析:

通过某炼油厂延迟焦化装置分馏塔和加热炉的日常运行数据，验证了该智能辨识方法的有效性。并讨论了不同数据分割方法、距离测量方法和模型结构的实验结果。

表1 不同NN模型的测试结果

图2 不同训分割方式下的GRU测试结果

表2 不同分布距离度量方法的测试结果

图3 加热炉辨识实验实际值与预测结果对比

结论:

考虑到化工过程的复杂特性，以及过程数据的统计特性随着操作条件的变化而变化导致模型失效的问题，提出了一种基于最大均值差异领域泛化方法的化工过程智能辨识方法。通过对炼油厂延迟焦化加热炉和分馏塔过程历史数据的实验验证了该方法的有效性。通过大量的对比实验验证了该方法的优越性。此外，与传统的辨识方法相比，这种智能辨识方法可以准确地捕捉受控对象的动态特征，同时最大限度地减少人工对正常生产的影响。

作者简介:

徐宝昌，副教授，博士生导师，中国石油大学（北京）信息科学与工程学院副院长。现为中国石油学会会员，中国化工学会会员。曾参与多项国家级、省部级科研课题的科研工作，并在国内外核心刊物发表了论文70余篇；其中被SCI、EI、ISTP收录30余篇。