当前位置: 主页 > 学术动态 >

基于多传感器融合的高维工业控制数据集典型相关模式可视化探索

点击数:   更新日期: 2024-06-06

中文题目:基于多传感器融合的高维工业控制数据集典型相关模式可视化探索

论文题目:Visually exploring canonical correlation patterns of high-dimensional industrial control datasets based on multi-sensor fusion

录用期刊Journal of Visualization (中科院SCI 4区,JCR Q4)

原文DOI:https://doi.org/10.1007/s12650-024-01008-7

作者列表

1) 纪连恩 中国石油大学(北京)信息科学与工程学院/人工智能学院 计算机系教师

2) 刘梓彤 中国石油大学(北京)信息科学与工程学院/人工智能学院 计算机科学与技术 硕 22

3) 吴洪凡 中国石油大学(北京)信息科学与工程学院/人工智能学院 计算机科学与技术 硕 19

4) 刘京博 中国石油大学(北京)信息科学与工程学院/人工智能学院 计算机科学与技术 硕 20

5) 杨   光 中国石油大学(北京)信息科学与工程学院/人工智能学院 计算机科学与技术 硕 22

6) 田   彬 国能智深控制技术有限公司 高级工程师

摘要:

对于配备高密度传感器的大型复杂工业设备,探索其生成的多区域监控参数对后续控制环节的潜在影响对于优化控制过程具有重要意义。然而,这些众多监控参数与随后的受影响参数之间关联的内在机制和随机性复杂,并且控制系统的每个工况都有其独特性和控制规则,这使得有效分析这些不同类别参数集之间的相关性变得具有挑战性。本文提出了一种结合参数融合和典型相关性分析(CCA)的方法,针对这种高维工业控制数据,构建了一个支持多视角和多层次探索典型关联模式的可视化分析框架CAPVis。对于单个工况,我们通过特别设计的三部图可视化典型相关关系的复杂结构,并使用多个辅助视图评估这些关系的冗余性和稳定性。对于多个工况,我们设计了不同的可视化比较策略,支持从局部到全局的多对多典型相关模式比较。在真实工业控制数据集上的实验和领域专家的反馈证明了CAPVis的有效性。

背景与动机:

在现代工业控制系统中,常常需要布置大量高密度传感器来监控大型复杂设备的运行状态。例如,在火力发电厂中,不同区域分布的高密度温度传感器生成的大规模壁温数据代表了炉膛内不同部分的燃烧特性,并对一系列后续控制参数(如蒸汽压力和温度等)有着重要影响。通过揭示这些壁温和后续控制参数之间的相关模式,操作人员可以更精确地调整锅炉的运行状态,以提高设备运行的安全性和经济性。然而,这些众多监控参数与随后的受影响参数之间的关联机制和随机性复杂,并且每个工况下都有其独特的运行特性和控制规则,这使得有效分析这些不同类别参数集之间的相关性变得非常困难。典型相关分析(CCA)可以用来探索这种多对多的关系,通过生成较少数量的复合变量来表示两个变量集之间的全局关联。但是这种方法的内部计算过程和结果复杂,难以直观理解和评估。为此,本文将交互式可视化技术引入工业参数相关性分析过程中,重点解决三个方面的研究挑战:(1)大规模高维传感器数据的灵活融合处理;(2)不同类别工业参数之间典型相关性的全面表示和评估;(3)不同工况下工业参数典型相关性模式的交互比较。

数据与任务分析:

数据描述与分析方法

本文数据来源于中国南方某火电厂2020年10月至12月期间660MW超超临界燃煤机组的锅炉控制过程,采样间隔为5秒,原始数据大小为12GB。监控参数包括锅炉不同内表面的1016个传感器,例如高温过热器、低温过热器、后墙隔板和水冷壁等区域。提取了22个后续控制参数,主要包括过热度、高温过热器出口主蒸汽压力、一次再热和二次再热等。这些提取的数据进一步根据机组的发电负荷范围划分为多个工况。

为了对上述数量众多的壁温测点进行有效融合,基于相似性的数据融合方法,我们先对每个炉膛空间区域进行聚类,然后再使用分批估计算法对每一类测点进行数据融合,以求得可以宏观反应当前类的代表特征。对于同一类测点,按照每个测点的不同位置,参考系统位置相近不在一组和空间位置相邻不在一组的分组原则,将所有测点分为2组处理:A组为当前类中的奇数排测点和偶数列测点,B组为当前类中的偶数排测点和奇数列测点。接下来,采用CCA方法计算上述融合后的壁温测点与受影响的后续控制参数之间的全局相关性。相比局部相关性,全局相关性分析考虑了所有子元素之间的相关结构,并寻找两组数据最佳表示的线性组合。给定两个多变量时间序列数据集XY:


image002.gif
image003.gif

其中,N代表的是时间序列的长度,代表包含的子元素个数,CCA发现每对之间的线性关系:


image008.gif
image009.gif


image010.gifimage011.gif称为典型权重。系数矩阵是通过最大化典型变量image014.gifimage015.gif之间的典型相关系数得到的。

通过CCA得到的典型变量和典型权重不是唯一的,当处理大量数据时,分析每对典型变量会变得非常繁琐。因此,针对CCA多模式的问题,需要提供全面的评价机制,帮助用户筛选有意义的模式进行分析。

可视化任务提炼

本文应用Sedlmair等人(2012)的9阶段设计研究方法,与四位领域专家紧密合作,提炼了如下分析目标:

G1:高效提取和检查多区域高密度传感器数据的代表性监控特征;

G2:全面展示特征参数与受影响参数之间的复杂关联;

G3:综合评估单一工况下多个典型相关性的质量;

G4:灵活探索和比较多个工况下典型相关模式的共性和差异。

根据这些分析目标和专家反馈,设计了如图1所示的数据分析模型,提炼了以下可视化分析任务:

T1:构建子区域多传感器数据的交互式融合过程。每个监控区域包含多个测量点,必须高效提取代表性特征参数(G1)。应使用交互式可视化比较不同的聚类方法,以选择最佳的分类和融合方法。

T2:多指标评估数据融合结果。多传感器数据融合的有效性对后续相关性分析有重要影响(G1,G2)。需要将融合结果的时间变化特性与原始数据进行比较,同时应使用多个误差指标(如RMSE、MAE和MAPE)定量检查融合精度。

T3:直观展示高维参数集的局部相关性。单个参数集内和不同参数集之间的成对局部分析可以帮助用户理解这些高维参数之间的基本相关性和冗余性(G1,G2,G4)。

T4:可视化展示融合特征集与受影响参数集之间的CCA结果。CCA用于分析两个数据集的多个子元素之间的相关性,从而全面考虑和展示所有参数之间的全局相关结构。用户还可以关注单个典型相关关系,并根据领域知识确定该关系是否有趣或显著(G2,G3)。

T5:多视角检查典型相关关系。有效的关系首先需要在整体上表现良好,例如,具有较高方差贡献度和冗余性。此外,这些关系在局部时间段内应保持一致和稳定。因此,交互式视图应支持从多个角度对每个典型相关关系进行可视化检查(G3)。

T6:多工况下典型相关模式的多层次比较。用户需要探索不同工况下的典型相关模式,并发现它们之间的相似性。由于每个工况包含多个代表其独特运行特征的典型相关关系,应有效地展示不同层次的对比(G4)。



图1 数据分析模型

可视化设计:

系统概览

本文基于以上挑战和分析任务,构建了一个名为CAPVis的可视分析框架。如图2所示,可视化界面主要分为四个功能区域:传感器数据融合和评估视图、局部相关性分析视图、典型相关性分析视图和控制面板。CAPVis支持包含以下三个模块的整个分析流程:

1. 传感器数据融合:传感器数据融合模块进行数据预处理。首先,用户选择具有特定工况的数据集,对监控设备不同空间位置进行多次聚类分析和可视化比较,然后对传感器数据进行子区域融合。将融合结果可视化以帮助分析人员确认融合效果,其他工况的数据集也以相同方式处理。

2. 局部相关性分析:在融合参数和受影响参数(用户预先确定)上进行局部相关性计算后,参数的组内相关性和方差被可视化,组间相关性在热图矩阵中可视化。然后用户可以选择感兴趣的参数以分析其相关特性。

3. 典型相关性分析: CCA视图显示当前工况下的详细典型相关模式(使用贡献度表示每个参数的重要性)。冗余性检验视图显示每个典型相关关系包含的原始数据信息量。稳定性检查视图帮助找到相关结构发生显著变化的局部时间段。当切换到多个工况时,工况比较视图首先可视化不同工况的局部特征,然后通过多个分层图形和多符号散点图概述典型相关模式的整体相似性,最后支持相似工况详细信息的比较。


图2 CAPVis系统主界面

三部图的设计

CCA视图使用三部图可视化两个多变量参数集之间的典型相关模式,基本设计原理如图3所示,它由两个二部图和一系列散点图组成,分别表示融合监控参数集、受影响参数集和典型变量对集。如图4所示,每条链接表示原始变量对典型变量的贡献度,线条粗细编码贡献度,红色为正相关,蓝色为负相关。为减少视觉杂乱,对链接和节点的布局进行了优化。



图3 三部图的设计

首先,链接用贝塞尔曲线表示,以实现边缘捆绑。其次,同一区域的融合参数垂直排列在一起,用实线边框表示,不同子区域用虚线分隔,这些区域按照空间位置排序,减少了弧线交叉。此外,设计了节点排序算法,用于对受影响参数进行排序,包括整体关联和局部关注两种展示方式。在整体关联情况下,通过计算所有典型变量对所有受影响参数的总加权贡献对节点进行排序。以典型交叉载荷为贡献度量,先计算8个典型变量的方差贡献,然后获得受影响参数相对于每个典型变量的典型交叉载荷,定义排序得分为:


image019.gif

得分越高,节点位置越高。链接则按从粗到细、从红到蓝排列,提供更清晰的视图。

在局部相关性中,当选择典型变量集中的特定节点时,所有受影响参数节点仅根据相对于当前典型变量的典型交叉载荷重新排序,这样可以完全消除链接之间的交叉。


图4 单工况与多工况下的三部图布局

案例分析与评估:

  1. 多源融合与评估

在进行CCA之前,领域专家需要全面理解和评估多传感器数据融合结果。以功率范围326-339MW的工作状态为例,图5展示了锅炉中高温和低温过热器部位的多传感器数据交互融合过程。首先,图5a可视化了原始测量点的空间位置,并用颜色映射平均壁温,显示高温过热器的中部和低温过热器的下部区域温度较高。其次,专家通过比较轮廓系数选择了层次聚类(AC)和谱聚类(SC)作为最佳分类方法,聚类结果与温度分布一致(图5b)。最后,分批估计融合结果在RMSE、MAE和MAPE方面显示出比其他方法具有更小的误差值(图5c)。专家通过观察特征变量和原始测量点平均值的时间变化,发现它们的波动存在明显差异,表明这些特征变量能够有效反映同一区域内不同的温度分布特征。


图5 多源融合与评估分析

  1. 单工况典型相关模式分析

单一工况下,专家希望探索壁温参数集与受影响参数集的关联。如图6所示,通过观察散点图和条形图,发现水冷壁区域的温度参数波动较大且高度相关。接着,利用CCA视图专家评估壁温参数与受影响参数之间的典型相关模式,从冗余性、稳定性和贡献度等方面进行了分析。结果显示,前三对典型变量包含了大部分信息,主要影响过热度、启动分离器壁温和高温过热器出口主蒸汽压力。专家指出,这符合温度传递路径,并表示未来可据此调整局部壁温,优化受影响参数状态。


图6 单工况典型相关模式分析

  1. 多工况模式对比

多工况下,专家更关注典型相关模式的差异。通过图7a中符号对比,发现高功率工况(569-645MW)下第一列符号高度相似,而低功率工况(339-409MW)下所有列均相似度较高。查看多符号散点图(图7b),专家发现第一个关系模式具有一般性,受功率影响小,第二和第三个关系则更独特。选择三个符号相似的工况(569-595MW、595-604MW和626-645MW)进行详细比较,发现原始参数对第一个典型模式的贡献值无显著差异(图7d)。此外,高功率和低功率工况下典型变量的值分布相反(图7c),专家猜测壁温在这两种工况下对后续控制参数(尤其是“过热度”)产生相反影响。


图7 多工况模式对比分析

  1. 系统评估

为评估系统的有效性,邀请四位专家进行了结构化实验和访谈,请他们在限定时间内完成任务P1-P7,之后汇总并统计了专家完成任务所用时间,并通过系统可用性量表(SUS)定量评估系统的可用性。图8显示了预设任务时间与实际操作时间的比较。蓝色框表示专家完成任务的平均时间,结果显示实际操作时间短于预设时间,表明专家迅速熟悉了系统。任务P7(快速识别多工况相似性)的操作时间差异较大,表明不同用户在学习该复杂任务时存在差异。SUS问卷量表的评估结果如表1所示,系统的平均得分为82.52,显著高于SUS平均得分(68)的阈值,表明系统的可用性良好。



图8 预设任务时间与实际操作时间比较


表1 系统可用性评分结果

结论:

本文提出了一种结合多传感器融合和典型相关分析(CCA)的可视化分析框架CAPVis,用于全面探索高维工业控制数据中的典型相关模式。首先,采用数据融合方法结合聚类过程,交互式提取并评估每个区域的传感器数据特征,然后应用CCA自动生成特征参数集与后续受影响控制参数集之间的典型相关性。其次,设计了一系列有效的可视化映射和协调视图,支持单一工况下典型相关性的多视角评估和多工况下典型相关模式的多层次比较。通过真实案例研究和专家评估,验证了CAPVis的实用性和有效性。虽然本文工作针对的是火电锅炉的运行数据,但从分析方法和可视化设计上看,CAPVis系统具有较强的通用性,可推广到其他工业领域。例如,如化工厂的传感器参数分析或炼油厂的多工况比较分析及大规模传感器数据的特征提取或空气质量数据的分类等。我们开发的多角度评估视图可以适用于其他使用CCA方法的项目。此外,我们为典型相关模式分析开发的可视化技术可以应用于其他领域数据集的多层次相关分析以及多个数据集的比较分析。

作者简介:

       纪连恩,博士,副教授,研究生导师。主要研究领域为大数据可视化与智能分析、可解释机器学习及工业领域应用、虚拟现实与计算机仿真、计算机图形学与人机交互技术等。主持和参与了国家自然科学基金、国家科技重大专项和重点企业合作项目多项。现为中国计算机学会(CCF)人机交互专委会委员、中国图象图形学学会(CSIG)可视分析专委会委员以及虚拟现实专委会委员。

联系方式:jilianen@cup.edu.cn