当前位置：主页 > 学术动态 >

背景减法的视觉语言对齐

点击数: 更新日期: 2024-05-14

中文题目：背景减法的视觉语言对齐

论文题目：Visual-Language Alignment for Background Subtraction

录用期刊/会议：IEEE International Conference on Multimedia & Expo (CCF B)

作者列表：

1）刘葭荷中国石油大学（北京）信息科学与工程学院/人工智能学院计算机科学与技术研22

2）朱丹丹中国石油大学（北京）信息科学与工程学院/人工智能学院计算机系副教授

3） Sajid Javed 哈利法大学计算机科学学院计算机科学助理教授

摘要:

背景减法(BGS)是视频分析中的一项基本任务，对许多应用场景都至关重要。尽管开发了各种方法来解决移动物体的识别问题，但在面对现实世界中固有的复杂挑战时，目前的技术还远远不够。持续存在的两个挑战是动态背景的存在，其中环境背景不断变化，以及相机抖动，这会给场景带来不稳定的运动。在计算机视觉领域，本文首次引入了为BGS任务设计的视觉语言模型，利用语言和视觉信息的集成，在背景减法的背景下增强对复杂场景的理解和解释。本研究的模型已经在广泛的CDNet-2014数据集中的三个类别中进行了严格的测试，结果表明平均F值为0.9771，突出展示了模型的熟练程度。这项研究为BGS提供了一个新的视角和新颖的解决方案，特别是在复杂的视频场景中。

设计与实现:

本文工作的主要贡献在于引入了一种专门为背景减法任务设计的新颖视觉语言模型。受多模态跟踪变压器(Multimodal Tracking Transformer, MTTR)在目标分割领域成功应用的启发，我们认识到其强大的时空特征学习和多模态信息融合能力，为背景减除任务提供了一种新的解决方案。与传统的背景减除方法不同，本研究使用的模型通过理解视频内容和相关文本描述之间的关系，可以更准确地识别和分割视频序列中动态前景对象，特别是在复杂场景和动态背景下。模型集成了深度学习的最新进展，训练了一个能够理解视频内容和语言指令的视觉语言模型，实现了视频帧中前景和背景的精确分割。实验结果表明，将该模型应用于背景减除任务时，与现有技术相比，不仅提高了分割精度，而且提高了对相机抖动和动态背景的适应性。这项研究为视频分析和处理领域提供了一个新的工具，展示了视觉语言模型在理解复杂视频内容方面的巨大潜力。

MTTR模型结合深度时空编码和Transformer技术，对视频和文本的多模态数据进行有效处理，其总体结构如图所示。

首先，该模型采用改进版的Video Swin Transformer作为时空编码器，从视频序列中精确提取丰富的视觉特征。这种增强通过调整时间下采样层来实现，为每个视频帧生成详细的特征映射，使模型能够捕获动态信息和复杂的细节。同时，使用基于Transformer的文本编码器RoBERTa从文本查询中提取语言特征。这些特征被线性投影，以便与同一维度空间中的视频特征对齐，以便后续集成。

特征提取完成后，MTTR模型使用多模态Transformer进一步处理这些特征。通过其编码器和解码器结构，该Transformer实现了视频和文本功能的深度集成，利用自关注机制来探索不同模式之间的关系，并为每个对象实例生成独特的序列。在此过程中，视频中的视觉信息和文本中的语言信息被有效融合，为后续的分割任务提供了坚实的基础。

随后，MTTR模型采用类似于FPN的空间解码器和动态生成的条件卷积核对实例序列进行空间解码，为每个实例生成分割掩码。这些动态生成的核根据Transformer解码器的输出进行调整，适应不同实例的不同特征，以产生高质量的分割结果。为了精确识别与文本查询最匹配的序列，该模型采用基于成本的匹配策略，通过简单的线性层和匈牙利算法计算每个序列的关联分数，准确选择目标实例序列。

在训练过程中，MTTR模型利用匹配损失、Dice损失和Focal损失的组合，通过端到端训练方法优化模型的性能。这种全面的损失函数设计不仅有利于模型学习基于文本描述的视频对象分割，而且省去了额外复杂的后处理步骤，显著提高了RVOS任务的效率和准确性。通过这些创新设计，MTTR模型不仅在处理多模态任务方面表现出卓越的性能，而且显著简化了处理工作流程，展示了深度学习技术在视频理解和自然语言处理领域的巨大潜力。

主要内容:

为了有效地将多模态跟踪变压器(Multimodal Tracking Transformer, MTTR)模型应用于背景减除任务，本研究对数据集格式进行了具体调整。这些调整主要体现在标签的处理和额外文本信息的添加上。

在对象分割任务中，数据集通常包含多个实例值，以区分图像中的单个对象实例。然而，背景减法的目标是识别与背景相反的所有动态前景物体。因此，在背景减法任务中，我们简化了数据集标签，使用单个标签值来表示前景。具体来说，所有前景对象的像素标签统一设置为255，而背景对象的像素标签设置为0。这种标签处理方法简化了模型的学习目标，使其能够专注于将视频帧中的前景与背景分开。

更重要的是，如图所示，为了充分利用MTTR模型的多模态特性，我们手动为每个视频添加视频标题，作为文本查询的一部分。这些视频标题简洁地描述了视频内容，如“汽车在高速公路上行驶”。通过将这些描述性文本信息与视频帧一起输入到模型中，MTTR可以更准确地理解视频内容，从而提高区分背景和前景的精度。视频标题的加入不仅丰富了数据集的信息内容，而且为模型提供了额外的语义层，有助于提高背景减除任务的性能。

综上所述，对数据集格式的调整和视频标题的增加为本研究的背景减除任务提供了必要的数据支持，使MTTR模型能够更有效地处理视频数据，实现更准确的前景分割。

实验结果及分析:

本研究的实验基于CDNet-2014数据集，重点评估提出的视觉语言模型在处理背景减法任务方面的性能。CDNet-2014数据集包括11个类别的53个自然场景视频，涵盖了一系列具有挑战性的场景。为了深入分析模型的性能，特别选择了三个具有代表性的场景类别进行实验：“基线”、“动态背景”和“相机抖动”。这些类别包括背景减法中的常见挑战，例如处理静态和动态背景以及由摄像机运动引起的视频帧变化。

在“基线”、“动态背景”和“相机抖动”类别中，模型表现出了卓越的性能。在基线类别中，它获得了0.9743的显著F-Measure，证明了它在区分动态前景元素和静态背景方面的卓越能力。在动态背景的挑战下，该模型的F-Measure值达到0.9757，强调了它在识别移动的前景和背景元素方面的能力。即使在相机抖动引入的扰动下，模型仍保持其鲁棒性，F-Measure为0.9793。总的来说，这些结果在0.9764的总体F测量值中达到最高，肯定了模型在不同和具有挑战性的场景中的一致性和可靠性。

在背景减法模型的对比评价中，提出的MTTR模型在所有测试场景中都表现出优异的性能。具体而言，在基线类别中，MTTR的F-Measure值为0.9762，高于DeepBS、IUTIS-5、PAWCS和SuBSENSE。对于有相机抖动的场景，MTTR模型的F-Measure为0.9757，再次优于其他模型，在动态背景条件下，它也表现出类似的优势，F-Measure为0.9793。总的来说，MTTR模型的平均F-Measure值为0.9771，突出了其在处理复杂视频背景方面的鲁棒性和有效性，肯定了其在背景减法领域的先进地位。

结论:

这项研究首次将传统上与对象分割相关的多模态跟踪变压器(MTTR)模型应用于视频背景减法领域，展示了视觉语言模型的扩展能力。MTTR对背景减法挑战的适应在CDNet-2014数据集的三个不同且具有挑战性的视频类别中展示了典型的性能，特别是在基线、相机抖动和动态背景场景中。

在MTTR框架内将深度学习与自然语言处理相结合，显著提高了模型从复杂背景中分割前景元素的熟练度。针对已建立的数据集进行基准测试的研究结果突出展示了MTTR模型的鲁棒性和准确性，超越了传统方法，特别是在易受动态变化和相机运动影响的环境中。

虽然MTTR模型已经显示出有希望的结果，但它在背景减法中的应用仍处于起步阶段，还有很大的潜力有待探索。未来的研究将受益于在CDNet-2014数据集中更广泛的视频类别中测试MTTR模型，以充分确定其有效性和稳健性。此外，将视觉语言模型的应用扩展到更广泛的视频分析任务，如事件检测和活动识别，代表了一个重要的研究途径，有望推进当前的技术水平。

综上所述，将MTTR模型应用于背景减除任务不仅提供了一种新的方法，而且为视频分析领域提供了一个新的维度。预计未来的研究将继续这一轨迹，进一步推进对视频内容在不同和具有挑战性的背景下的理解和处理。

作者简介:

朱丹丹，博士，中国石油大学（北京）信息科学与工程学院/人工智能学院副教授，硕士生导师。目前主要研究方向是强化学习和数据挖掘。

联系方式：zhu.dd@cup.edu.cn