中文题目:极有限故障样本下利用改进的条件GAN进行数据增强及其在电潜泵故障诊断中的应用
论文题目:Data augmentation using improved conditional GAN under extremely limited fault samples and its application in fault diagnosis of electric submersible pump
录用期刊/会议:Journal of the Franklin Institute (JCR Q1; CAA A类期刊)
原文DOI: https://doi.org/10.1016/j.jfranklin.2024.01.030
原文链接:https://www.sciencedirect.com/science/article/pii/S0016003224000401
录用/见刊时间:2024年01月17日
作者列表:
1) 高小永 中国石油大学(北京)信息科学与工程学院/人工智能学院 自动化系 教师
2) 张 誉 中国石油大学(北京)信息科学与工程学院/人工智能学院 控制科学与工程 硕20;School of Chemistry and Chemical Engineering, University of Surrey, Guildford GU2 7XH, UK
3) 付 军 中海油能源发展股份有限公司 天津
4) 李 爽 中国石油大学(北京)信息科学与工程学院/人工智能学院 控制科学与工程 硕22
文章简介:
本研究提出一种智能虚拟样本生成法,用于海上油田电潜泵故障诊断。通过条件生成对抗网络和多分布趋势扩散技术,有效克服数据量大但信息量小的挑战,生成高质量虚拟样本。这种方法显著提高了分类模型的准确性,并通过实际应用验证了其效果,展现出优于传统方法的性能。
摘要:
海上油田的电潜泵(ESP)是实现高产稳产的重要人工举升方法之一。由于 ESP 系统的复杂性和较长的泵送周期,其数据具有典型的 "数据量大、信息量小 "的特点。因此,有效样本的稀缺给 ESP 故障诊断带来了巨大挑战。针对这些实际问题,我们提出了一种智能虚拟样本生成方法,将多分布整体趋势扩散(MD-MTD)的思想引入条件生成对抗网络(MCGAN-VSG)。在 MCGAN-VSG 方法中,首先利用 MD-MTD 中构建的三角概率分布模型对样本进行估计,从而获得样本属性的可接受扩散范围。其次,加入Borderline-SMOTE 和均匀分布来描述小样本属性,并生成合适的输出样本来填补样本间的信息差距,以便使用 Bootstrap 重新采样。第三,使用 CGAN 生成与输出样本相对应的输入样本。最后,用极其有限的故障样本生成大量虚拟样本,从而提高分类模型的准确性。为了验证所提出的 MCGAN-VSG 的优势,我们通过二维标准函数对通过该方法生成的输入和输出虚拟样本的质量进行了研究。提出的方法被进一步应用于海洋油田静电除尘器的故障诊断,并通过实际工业数据验证了 MCGAN-VSG 的有效性。MCGAN-VSG 与 MTD、TTD、Bootstrap 和 MD-MTD 等最先进的方法进行了比较,实验结果表明所提出的方法优于所有其他方法。
背景与动机:
海上油田的电潜泵(ESP)是关键的人工举升技术之一,但由于其系统复杂性及长周期泵送特点,面临数据量大但信息量小的挑战,使得有效样本稀缺,进而给ESP故障诊断带来困难。因应这一问题,研究提出了一种智能虚拟样本生成方法,旨在通过创新技术提高故障诊断的准确性和效率。
设计与实现:
首先,将 MCGAN-VSG 方法与 MD-MTD 方法的思想相结合,计算原始样本的扩散范围。然后,利用三角隶属函数建立三角概率分布(TPD)模型。为了描述小样本的特征,还加入了边界线-SMOTE 和均匀分布。然后生成虚拟样本。此外,使用 Bootstrap 对 TPD 模型中的数据进行重新采样,以获得新样本的输出。最后,使用改进的 CGAN 生成新样本的输入。
MTD 方法是一种信息扩散技术。MTD 的作用是填补原始样本信息之间的空白。它利用隶属函数计算虚拟样本区间的左右边界,并在这些边界内生成虚拟样本。另一方面,MD-MTD 是一种基于 MTD 的改进算法。它引入了均匀分布来生成虚拟样本,避免了样本在扩散区域的不平衡现象。
图1 三角概率分布模型
在 TPD 模型的扩散区域,数据分布未知,因此使用均匀分布生成虚拟样本点,如图 1中蓝色星形点所示。在观测区域,由于原始样本分布未知,因此使用边界线-SMOTE 算法生成虚拟样本,并在此间隙中不重叠。因此,在直接观测区域生成的虚拟样本可以填补离散样本观测点的信息空白,从而解决原始样本不平衡的问题。扩散区域的样本点也会被添加额外的信息,边界线-SMOTE 的原理如下图 2 所示。
图2 Borderline-SMOTE
本文充分利用了 MD-MTD 的优势,既大大降低了计算成本,又能更好地呈现原始样本的概率。在 MD-MTD 所构建的 TPD 模型的抽样过程中应用 Bootstrap 方法,可以大大提高虚拟样本生成的效率。
Bootstrap 方法的具体抽样过程如下:
Step 1:使用重抽样技术在总体中随机抽取一个样本,记录样本值,然后放回原始数据样本中。
Step 2:重复Step 1,进行 n 次抽样,从中获得自助样本并计算统计参数。
Step 3:重复Step 1 和Step 2 进行子采样,得到 m 个自助样本。
Step 4:利用 m 个自助样本的统计参数计算总体统计参数。
在工业领域,海量数据集具有非线性、高维度和未知分布等特点。生成式对抗网络通过不断训练生成新样本,从而获得数据集的分布。然而,生成式对抗网络生成的样本具有随机性,因此控制模型虚拟样本的生成对于故障诊断极为重要。因此,我们将条件生成式对抗网络(CGAN)作为基础模型。
具体来说,与 GAN 类似,CGAN 也由两个相互竞争的神经网络组成,分别为生成器(G)和判别器(D)。在本研究中,通过在 G 中添加约束 Y 和噪声 Z,生成一个满足训练条件的新虚拟样本 X。此外,D 将条件 Y 和新生成的 X 作为输入,然后 D 区分样本 X 属于真实样本还是虚假样本,而 X 是否生成取决于条件 Y。目标函数如下式所示:
MCGAN-VSG 方法的具体实施过程如下:
a. 通过 MD-MTD 建立 TPD 模型,以获得原始数据集的扩散范围。
b. 对于扩散区域和观测区域,分别添加均匀分布和边界线-SMOTE 对其进行描述。然后,通过 Bootstrap 方法对全局范围进行重采样,得到新样本的输出。
c. 以噪声 z 和条件 y 作为输入对 CGAN 模型进行训练,以获得输出 x 和给定条件 y 下的分布。
d. 获得训练有素的 CGAN 模型后,将样本输入该模型,最终生成虚拟样本.
实验结果及分析:
为了验证我们提出的算法的有效性,我们将通过二维标准函数来验证 MCGAN-VSG 方法的优越性。此外,MCGAN-VSG 还将在实际工业流程(ESP 系统)中得到很好的应用。
Case 1:
二维标准函数的定义为:
虚拟样本生成的具体步骤如下:
1) 数据集的获取。首先,我们从二维标准函数中随机选取 500 个数据点作为实验的原始数据集。然后,从原始数据中提取 400 个原始样本点作为训练数据集。
2) 输出新样本。利用 TPD 模型对原始数据进行扩散,以获得更大的数据扩展区间。然后,在观测区域和扩散区域分别添加边界线-SMOTE 和均匀分布描述。最后,通过 Bootstrap 对全局数据区间进行重采样,得到输出结果。
3) CGAN 模型构建。输入训练数据来训练 CGAN 模型,超参数的选择见表 1。图 5 比较了真实数据(蓝色表面)和生成数据(黄色表面)的核概率估计值,真实密度和生成密度非常接近。根据公式 (10) 和 (11),可以得到真实分布和生成分布之间的距离,如图 6 所示。从图中可以看出,随着迭代次数的增加,KL 和 JS 逐渐减小。当迭代次数达到约 650 次时,模型已经收敛。因此,可以评价 CGAN 模型能够生成较好的虚拟数据。
4) 将步骤 2) 中的输出导入训练有素的 CGAN 模型,以获得虚拟样本。模型生成的虚拟样本和原始样本如下所示。从图中可以看出,原始样本中的一些信息空白被我们的虚拟样本所填补,很好地保持了信息的完整性。
Case 2:
以某海上油气田电潜泵运行工况的真实数据为实验样本集。电潜泵是一种将电动机连同泵对油一起投入油井的井下举升设备。作为油田实现高产稳产的重要人工举升方式之一,静电除尘器的优点是设备配置简单,安装面积小,适合海上平台使用。由于海上电泵井的检泵周期较长,长时间运行可能导致气锁、砂堵、供液不足等因素的影响,以及管柱漏油、断轴、电缆击穿等故障。有必要对静电除尘器的工作条件进行诊断。一般来说,正常样本和故障样本的数量极不对称会导致数据不平衡。以图 8 所示的静电除尘器轴断裂故障数据集为例,可以看出有效故障样本极度缺乏,数据之间存在许多间隙。少量的故障样本给故障分类带来了很大的困难,对预测精度也有极大的影响。因此,本文提出了一种虚拟样本生成技术 MCGAN-VSG,用于解决 ESP 系统中故障样本极其有限的数据问题。
Accuracy、F-measure 和 G-mean 被用作分类模型的衡量标准。上表总结了使用原始样本和不同虚拟样本生成方法的分类模型的结果。从表可以看出,在基础 ELM 模型中加入 MCGAN-VSG 方法生成的虚拟样本后,分类准确率可达 73.98%,F-measure 为 60.96%,G-mean 为 61.32%。在没有添加虚拟样本的情况下,原始训练集测试的准确率为 50.91%,与提出的 MCGAN-VSG 方法相比,准确率提高了 23.07%,F-measure 和 G-mean 也有所提高。与其他五种先进的 VSG 方法相比,在极其有限的 ESP 数据集上,没有一种方法的表现能与 MCGAN-VSG 相提并论。下图给出了不包含虚拟样本的分类模型和不同 VSG 方法扩展数据集的混淆矩阵。由此可见,与其他 VSG 方法的扩展数据集分类模型相比,MCGAN-VSG 方法的扩展数据集下训练的分类模型表现更好,可以获得更高的准确率。
所提出的 MCGAN-VSG 可以很好地解决小样本问题,填补原始样本之间的信息空白,并能有效提高极有限的 ESP 故障样本的性能。
结论:
本研究提出了一种结合 MD-MTD 和条件生成对抗网络(MCGAN-VSG)的智能虚拟样本生成方法,以实现在 ESP 故障样本极其有限的情况下的数据增强。在 MCGAN-VSG 中,首先通过 MD-MTD 扩散原始样本范围,以获得更宽的数值范围。然后,分别使用边界线-SMOTE 和均匀分布来描述观测区域和扩散区域,以填补原始信息的空白,再通过 Bootstrap 对输出样本进行重新采样。CGAN 之后是虚拟样本的生成。最后,利用生成的虚拟样本进行故障分类,从而在样本极其有限的情况下提高分类的准确性。通过使用二维标准函数,验证了所提方法的优势。在真实数据集的实验中,通过准确率、F-measure 和 G-mean 指标验证了所提出的 MCGAN-VSG 的有效性。与不包含虚拟样本的原始训练集相比,MCGAN-VSG 提高了 23.07%,并与 TTD、MTD、Bootstrap 和 MD-MTD 方法进行了比较,验证了 MCGAN-VSG 的优越性。此外,我们还研究了增加虚拟样本量大小对模型准确性的影响,结果表明,在原始样本的基础上增加 500 个虚拟样本时,模型性能趋于稳定。
在未来的研究中,我们将探索在准确率保持稳定的条件下虚拟样本生成的扩散范围极限,并将其应用于实际工业过程。
通讯作者简介:
高小永,信息科学与工程学院/人工智能学院副院长,博士生导师,石大学者,校青年拔尖人才,自动化专业及控制科学与工程学科建设负责人,担任北京自动化学会常务理事、中国自动化学会过程控制专业委员会委员、中国自动化学会教育工作委员会委员、中国化工学会信息技术应用专业委员会副秘书长、中国系统工程学会过程系统工程专业委员会委员等。研究领域为复杂石油石化工业过程智能制造,主要方向有:机理与数据驱动的故障诊断、复杂工业过程建模与优化控制、工业过程计划与调度优化等。主持国家自然科学基金项目2项、北京市自然科学基金面上项目1项、校企联合项目20多项,发表SCI/EI等各类论文50多篇。
Email:x.gao@cup.edu.cn