当前位置: 主页 > 学术动态 >

从掩模关系推理角度重新考虑参考关系

点击数:   更新日期: 2022-11-17

中文题目:从掩模关系推理角度重新考虑参考关系

论文题目Rethinking Referring Relationships from a Perspective of Mask-level Relational Reasoning

录用期刊Pattern Recognition (JCR Q1 TOP)

原文DOIhttps://doi.org/10.1016/j.patcog.2022.109044

录用时间:2022.9.15

作者列表

1) 李承阳 北京大学计算机学院 计算机软件与理论专业 20

2) 朱丽萍 中国石油大学(北京)信息科学与工程学院 计算机系教师

3) 田港 中国石油大学(北京)信息科学与工程学院 计算机科学与技术专业 19

4) 侯   北京大学计算机学院 计算机科学与技术专业 博19

5) 周   恒 西安电子科技大学电子科学与技术学院 电子科学与技术专业 博20

背景与动机:

近年来,人们对例如文本和视觉的多模态学习任务的研究越来越深入。单个图像模型有时会出现失真,无法满足视觉模型所要求的数据质量。本文引入参考关系Referring Relationships(RR)来探索图像和文本融合的真实效果。根据三元组<主语、谓语、宾语>,RR旨在定位图像中主语和宾语的位置如图1所示,通过指导与其他物体(如眼镜和夹克)的关系来区分两个男人。小型和不具有判别力的物体(如眼镜)也可以通过文本优先成功定位。



1 RR的示意图,基于三元组文本来预测图像中主语和宾语的位置。

在以前的方法中,谓词仅由一系列传统卷积建模。谓词有两种类型,例如位置关系和逻辑关系。位置关系(例如,“on”“in”“next to”,…)不容易改变,可以在图像中清楚地表达出来。相反,逻辑关系(例如“of”,“with”“playing”,…)是隐式的,很难在图像中表达出来。在不同的情况下可能会有很大的变化。由于固定的几何结构,传统卷积固有地局限于模型几何变换。然而,每个谓词在图像域中都有很大的未知表示变换。当物体较小时,特征也可能在累积卷积过程中丢失。此外,文本本身所带来的先验知识没有得到充分利用,例如关系和推理。例如,可以通过三元组<people,kick,->推理来猜测“ball”,也可以通过三元组<-kitch,ball>来猜测“people”。如果引入这种逻辑知识,可以增强多模态模型的推理能力和图像域的识别能力。

设计与实现:

基于上述原因,本文提出了一种用于多模态学习的关系推理方法MRR,如图2所示。MRR旨在学习空间位置关系,而不是用于检测的特征。它被视为主客体之间的掩模级推理过程。最重要的是,图像域是二维矩阵,文本域是一维数组。从图像到文本的映射可能会丢失大量的空间和位置上下文。因此,本文将文本信息映射到图像域进行多模式融合。


图2 本文方法MRR的示意图

具体来说,关系推理包括两个视角:文本到图像和图像到文本。一方面,在文本到图像的推理中,本文设计了一个掩码生成模块来生成主题和对象的掩码。基于这些掩码,设计了一个掩码转移模块来学习表示谓语的函数。由于其在物体位置和大小变化方面的优势,谓语建模采用可变形卷积。以上模块形成一个推理链,在图像域中反复进行主客体之间的推理。如图3所示所示。



3 文本到图像的全过程关系推理

另一方面,多模态数据集需要大量的文本和图像注释,这需要大量的时间和人力。对于多模态模型,需要如何通过对少量标记数据进行培训来获得良好的性能。如图4所示,本文提出了一种基于关系推理的图像到文本方法,如图4所示。在每次迭代结束时,增加一个基于Bi-GRU的参数共享模块。该模块共有三个GRU单元,分别对应于主语、谓语和宾语的预测



图4 基于关系推理的图像到文本方法

实验结果及分析:

本文在大型通用多模态数据集Visual Genome和VRD上来训练和测试提出的模型。如表1所示,本文比较了最先进方法之间的IOU和KLD结果。本文方法MRR在VRD和Visual Genome两个数据集上取得了最佳性能。与SSAS相比,MRR在VRD数据集上获得+0.059 IOU,在Visual Genome数据集上得到+0.081 IOU。KLD结果还表明,MRR的错误预测比其他基线少。



结论:

参考关系旨在预测输入图像的主语和宾语的掩模位置。本文从图像和文本之间的双向关系推理的角度重新思考这项任务。在此基础上,本文设计了掩模生成模块和掩模转移模块,用于将文本先验信息融合到图像特征中。本文创造性地将谓词视为掩模级传递函数,使用可变形卷积来建模。此外,还使用了一种无监督的图像到文本关系推理方法来指导整个多模态模型学习语言先验,加快模型收敛速度。本文方法MRR更易于解释,符合逻辑推理过程。其思想在未来的VG任务或更多多模态任务中是可行的。

作者简介:

承阳正在北京大学攻读计算机软件与理论博士学位。他于2020年7月获得中国石油大学(北京)计算机技术硕士学位。他的研究兴趣包括图像处理、视频理解和多模态智能。目前,他主要关注退化图像检测模型性能优化。他曾在PRNeuroComputing、ICASSP等期刊和会议上发表过多篇论文。此外,他还是PR、NPL和TCSVT等期刊的审稿人。

通讯作者简介:

朱丽萍,博士中国石油大学(北京)计算机系副教授,硕士生导师。目前主要研究方向是大数据和数据挖掘方向,尤其关注深度学习在计算机视觉方向上的应用,已发表论文多篇高水平论文。联系方式:zhuliping@cup.edu.cn