中文题目:多天气恢复任务:一种基于提示引导的高效卷积架构
论文题目:Multi-weather restoration: An efficient prompt-guided convolution architecture
录用期刊/会议:IEEE Transactions on Circuits and Systems for Video Technology (SCI 1区TOP,CCF B)
原文DOI:10.1109/TCSVT.2024.3469190
原文链接:https://ieeexplore.ieee.org/document/10697214
录用/见刊时间:2024年9月27日
作者列表:
1) 李承阳 中国石油大学(北京)人工智能学院 智能与科学系教师
2) 孙方伟 军事科学院 计算机科学与技术专业 博23
3) 周 恒 江南大学人工智能与计算机学院 人工智能系教师
4) 谢永强 军事科学院 研究员
5) 李忠博 军事科学院 高级工程师
6) 朱丽萍 中国石油大学(北京)人工智能学院 计算机系教师
摘要:
应对恶劣天气条件在实际应用中起着至关重要的作用。许多现有的恢复方法仅限于特定的天气类型,这限制了它们在不同天气场景中的适用性。研究者们已经利用包括 Transformer 和扩散模型在内的先进技术来应对这一挑战。然而,这些方法通常会增加网络复杂性并延长推理时间。为此,本文提出MW-ConvNet,一种用于多天气恢复的基于 U 形卷积的网络。具体来说,引入了 MW-Enc 块和 MW-Dec 块来实现简单但强大的特征提取,这完全依赖于传统的 2D 卷积。为了提高对多种天气条件的适应性,设计了一个提示生成模块来在编码器的终端生成代表性的天气提示。从风格转换中汲取灵感,天气提示用于指导解码器通过渐进式恢复程序进行学习。对于未来的高保真恢复,在编码器阶段通过小波池化块引入频率分离,在解码器阶段引入相应的上采样块。低频和高频特征的分离处理抑制了网络计算过程中纹理信息的丢失。它还提高了生成的天气提示的质量和准确性。大量实验表明,与最先进的方法相比,所提出的 MW-ConvNet 在特定天气和现实世界恢复任务中都获得了卓越的性能。值得注意的是,本文方法实现了每 256x256 图像 0.12 秒的惊人推理速度,超过了基于Transformer和基于Diffusion的模型。
背景与动机:
多天气条件下的图像恢复对于增强自主系统的感知能力以及提高航空侦察能力至关重要。真实世界的场景经常受到雾、雨和雪等恶劣天气条件的影响,这些条件会扭曲图像并阻碍能见度。这些失真对下游任务如目标检测和目标跟踪产生了不利影响。尽管在解决特定退化问题方面已经取得了实质性进展,例如去雾、去雨和去雪,但大多数现有方法都是针对单一天气条件设计的。这一限制限制了它们在真实世界场景中的有效性,真实世界场景中通常会同时出现多种天气条件。为了应对多种天气退化,最近出现了一些有意义的研究工作。All-in-One首次引入这种多天气恢复任务。它还提出了一个统一的框架,该框架利用特定任务的编码器和多功能解码器,通过神经架构搜索进一步优化,以实现有效的特征融合。TransWeather利用Transformer模型,采用了基于Transformer的编码器和解码器结构来提升性能。此外,WeatherDiff引入了扩散模型,并设计了一种基于补丁的条件扩散方法。尽管这些方法显示出相当大的潜力,但它们也导致训练参数数量的显著增加,导致训练复杂性和推理时间方面的挑战。
设计与实现:
为了满足实时性要求并设计一种简单高效的多降质恢复算法,本文提出一种完全基于简单卷积的多降质恢复网络MW-ConvNet。该网络旨在解决多种降质因素导致的图像退化问题,其整体架构如下图所示。MW-ConvNet采用含有跳跃连接的经典U形网络U-Net的结构。其整体架构可以划分为五个连续阶段,依次为浅层特征提取阶段、编码器阶段、提示生成模块、解码器阶段和图像重建阶段。
在初始阶段,采用2个3x3的卷积运算进行浅层特征提取,将输入图像映射到高维特征空间。浅层特征的维度为dxHxW,d表示特征通道数,H和W表示特征图的尺寸。编码器阶段被划分为5个子阶段,每个子阶段对应不同的特征尺度,MW-Enc块的数量依次设置为[2, 2, 4, 8, 5]。在前4个子阶段尾部,加入小波池化块以进行下采样。该模块将功能解耦到四个频域,从而实现高低频特征的分离。与编码器对应,解码器阶段同样分为5个子阶段,MW-Dec块的数量依次设置为[5,2,2,2,2]。在前四个子阶段尾部,上采样模块被使用来放大特征图尺寸。最终,图像重建阶段由2个3x3卷积组成,将特征图重新恢复到原始的图像空间,其维度为3xHxW。
提示生成模块位于编码器阶段和解码器阶段之间,其作用是为解码器阶段中的MW-Dec块提取表征降质因素的降质提示向量。在训练期间,该模块通过引入额外的约束损失来促进降质提示的学习过程。该模块的设计旨在提升网络的降质特征表示能力,并为解码器提供准确的降质提示信息,从而增强模型对降质特征的敏感性,并实现更好的图像重建效果。在多降质恢复任务中,核心挑战在于如何在网络执行过程中有效地分离不同的降质因素,并生成相应的解决方案。根据以往的研究,可以将每种降质因素视为一个独立的风格域。基于此定义,降质提示归一化方法被提出作为一种简单有效的方法,用于协调和融合图像特征和降质提示向量,使两者有机地结合起来。这种方法不仅通过特定降质特征的统计数据实现了特征级的风格转换,而且还保留了特征图中细节信息的空间结构。通过引入降质提示向量,MW-Dec块能够有效地提高解码器的性能和鲁棒性,为在同一模型内分离处理不同降质提供了一种灵活而可靠的解决方案。
实验结果及分析:
实验数据集主要涵盖三种降质场景,分别为雨滴、雨雾、雪。为了确保公平比较,采用与All-in-one和TransWeather论文中相同的训练集和测试集,被称为“AllWeather”。对于去雨滴、去雾和雨、去雪任务的定量比较中,将参与比较的方法分为两类:特定降质和多降质。其中,特定降质方法是针对特定降质数据集进行定制训练,以专门处理单个降质恢复任务,而多降质方法则通过训练统一模型来同时处理所有降质恢复任务。MW-ConvNet在多降质恢复任务中表现出优异的性能,体现在其较高的PSNR和SSIM分数。此外,其训练过程也相对稳定,能够快速地收敛训练损失。相比基于Transformer的方法(如TransWeather)和基于扩散的方法(如WeatherDiff),基于CNN架构的MW-ConvNet有效地解决算力需求较大的挑战,极大增强实际部署场景中的实用性。
同时,进行了实验对不同恢复方法的推理时间进行比较分析,如下表所示。在所有方法的测试实验中,统一采用相同的输入图像尺寸256x256。值得注意的是,MD-ConvNet具有最快的推理速度,每张图像仅需0.12秒就可以完成图像恢复。仅基于卷积的模型架构成为提高其效率的关键因素,并且采用多尺度和编码器-解码器的设计进一步提升特征丰富度和利用率,从而达到基于较大参数模型Transformer和扩散模型相同的实验性能。
结论:
本文重新思考了传统的2-D卷积,并发现基于卷积的模型可以实现与基于Transformer和基于Diffusion的模型相似的性能。基于这一观察,本文提出了一个简单而高效的卷积架构MW-ConvNet,用于多天气恢复。MW-ConvNet采用了带有无激活特征提取块MW-Enc和MW-Dec的U形编码器-解码器架构。为了解决多种天气共存的问题,在编码器的末端引入了提示学习,以生成一个天气提示。通过强大的约束,这个提示具有强大的天气感知能力,用于指导图像重建。此外,引入了小波池化块和上采样块进行频率分离,以实现高质量的提示和高保真的恢复。在合成和真实世界的多天气数据集上的比较实验证明,MW-ConvNet在性能和推理时间方面比其他当前最先进的方法具有优势。这些结果高度表明了2D卷积的强大特征提取能力和网络中提示的引导能力。本文为未来研究提供了启示:最新的先进技术值得探索用于各种应用。然而,在某些任务中(例如本文中的多天气恢复),小型模型也可以实现最先进的性能,这些模型更易于部署在实际受限场景中。
作者简介:
李承阳,特任岗位副教授。博士,中国石油大学(北京)人工智能学院智能科学与技术系教师,主要研究方向为复杂环境多模态智能感知技术。