您所在的位置:首页 - 科学研究 - 科研动态

科研动态

基于思维扩散链的可解释视觉问答模型

中文题目:基于思维扩散链的可解释视觉问答模型

论文题目An Explainable Vision Question Answer Model via Diffusion Chain-of-Thought

录用期刊/会议:The 18th European Conference on Computer Vision ECCV 2024 (CCF-B类会议/CAAI-A类会议)

作者列表:

1)卢春昊 中国石油大学(北京)人工智能学院 人工智能 硕23

2)鲁    中国石油大学(北京)人工智能学院 智能科学与技术系副教授

3)Jake Luo University of Wisconsin Milwaukee Department of Health Informatics and Administration Associate Professor

摘要:

在复杂视觉问答场景下,由于问题与答案之间的语义距离较远,vc仅针对最终生成的答案作解释,并不能有效缩短问题与答案之间的语义距离。为缓解此语义偏差问题,本文提出一种扩散思维链模型(VQA-TD)来实现视觉问答的推理过程。该模型由内外部两扩散过程组成,其中外部扩散过程用来生成每步推理的解释;内部扩散过程用来描述问题向每步解释迁移的概率。通过在ScienceQA数据集上的实验表明,该扩散思维链模型以GPT3.5的1%参数量,在答案准确率和解释文本生成质量上全面超过GPT-3.5;在部分子任务上,已接近或超过GPT-4、Llama等模型。

背景与动机:

为了提升视觉问答(VQA)任务结果输出的可解释能力,现有研究主要采用解释生成法、原型网络法和局部可解释方法来对答案作解释。上述方法虽然有效,但这些解释均是在得到答案后而再生成的,且无法进行逐步解释。而在复杂VQA场景中,图像及问题与答案之间语义距离会更远,答案预测的精度也会降低,进而影响解释文本生成的质量。为缓解此问题,本文认为VQA是先经过逐步推理后再得到答案的过程,故提出了扩散思维链模型以实现逐步推理。

设计与实现:

扩散思维链模型(VQA-TD)总体框架如图1所示。首先,VQA-TD构建了语义嵌入,语义对齐和推理解释模块(如图1a所示)。然后,它利用推理解释模块实现内外部扩散过程。具体操作如下:(1)外部扩散:构造了各解释文本之间的迁移概率:以缩短各个解释之间的语义距离(如图1a所示);(2)内部扩散:构造了问题及图像与解释文本迁移概率:来缩短每一解释与问题及图像之间的语义距离(如图1d及图1e所示)

图1 扩散思维链模型(VQA-TD)

实验结果及分析:

在ScienceQA数据集上的对比实验表明,VQA-TD以GPT-3.5的1%参数量,在答案准确率和解释文本生成质量上超过GPT-3.5;在部分任务上接近或超越Llama以及GPT-4。

表1 对比试验结果(NAT:自然科学;SOC:社会科学;LAN:语言科学;TXT:文本提示;IMG:图像提示;NO:无提示;G1-6:1-6年级题目;G7-12:7-12年级题目)


图2 预测答案准确率对比结果

表2 解释文本生成的质量对比(双语评估&召回率)


3 解释文本生成的质量对比(双语评估&召回率)

VQA-TD的突出性能主要归功于内外部两扩散过程。这两个扩散过程通过多个扩散和恢复步骤逐步逼近并链接长解释文本中的语义信息,以此降低图像及问题到答案之间的语义偏差。

表3 不同提示输入对模型性能的影响

(a)解释文本生成的质量对比 (b)答案预测准确率对比

本文针对四种提示数据的输入情况进行了消融实验。实验结果表明,当同时输入两种提示类型数据时,模型输出的结果明显好于其它提示类型输入的情况(如表3所示)。

结论:

本文提出了一种新的VQA算法框架——扩散思维链模型(VQA-TD)。我们通过构建扩散思维链模型,实现了从问题到答案的逐步推理过程。该模型由内外部两个扩散过程组成,即通过外部扩散捕获推理步骤之间的联系;通过内部扩散生成每一推理步骤的解释。实验结果表明,即使是在模型较小的情况下,VQA-TD仍能有效缓解复杂问题中的语义偏移问题,提升了答案预测精度,并能够生成质量更好的解释文本。

通讯作者简介:

鲁强:副教授,博士生导师。目前主要从事演化计算和符号回归、知识图谱与智能问答、以及轨迹分析与挖掘等方面的研究工作。

联系方式:luqiang@cup.edu.cn