点击数: 更新日期: 2023-03-24
成果名称:一种卷积神经网络的细粒度的可视化解释方法
题目: On fine-grained visual explanation in Convolutional Neural Networks
发表期刊: Digital Communications and Networks, 2022 (SCI, JCR Q1)
DOI: https://doi.org/10.1016/j.dcan.2022.12.012
作者列表:
1)雷 霞 中国石油大学(北京)信息科学与工程学院 自动化系博19
2)范永开 中国传媒大学媒体融合与通信国家重点实验室 网络空间安全系教师
3)罗雄麟 中国石油大学(北京)信息科学与工程学院 自动化系教师
背景与动机
卷积神经网络在许多计算机视觉任务中得到了广泛的研究和应用,但它们通常被视为由数据驱动的黑盒模型,很难解释模型内部的工作原理和决策依据,所以模型的结果可能处于不可预知的状态,比如对输入图片进行一个微小扰动之后模型的结果就可能让人大跌眼镜。然而在医疗诊断等高风险领域,人们更加关心模型的决策依据以及前因后果,透明性和可解释性差的智能模型很难令人信服。现有的基于类激活映射(CAM)的解释方法具有良好的类别判别能力并能很好地定位相关图像区域,但缺乏像素级别梯度可视化解释方法显示细粒度特征重要性的能力。另外,由于缺乏理论的指导得到的解释结果的准确性无法保证,其与原待解释模型的真实决策之间可能存在不一致性。因此,为获得细粒度和可信度更高的重要决策特征,本文提出一种细粒度的卷积神经网络的可视化解释方法F-GVE,产生与原待解释模型的真实行为之间具有更高的一致性的细粒度解释。首先,通过将卷积神经网络的分类决策分解为其输入图像的贡献来解释模型的决策依据,然后计算得到目标类相对于输入的梯度,同时为了权衡解释的可理解性和准确性选取适当的阈值在计算过程中选择性地过滤梯度,从而得到该输入图片所对应的显示细粒度特征重要性的分类决策解释图.
设计与实现
卷积神经网络包括卷积层、最大池化层和全连接层,可以分别表示为
其中,表示第层的输入。假设对于输入图片样本,通过已训练好的卷积神经网络的依次迭代最后可得输出预测向量为,接下来考虑解释对目标类输出影响最大的决策特征。假设神经网络的激活函数为ReLU函数,则
对于卷积神经网络,偏置梯度项具有便于可视化的空间结构。于是,可以通过将卷积神经网络的分类决策分解为其输入图像像素的贡献来解释模型的决策依据。因此,接下来就是要计算目标类关于输入图像中的每个像素的梯度以显示它的重要性,分别对梯度经过全连接层、最大池化层和卷积层逐层迭代计算
最后,为了权衡解释的可理解性和准确性选取适当的阈值在计算过程中选择性地过滤梯度,这里采用ReLU函数选择性地过滤梯度,如图1所示,产生与原待解释模型的真实行为之间具有更高的一致性的细粒度的解释图
图1 可视化解释方法示意图
实验结果及分析
实验部分主要由以下三个部分组成。首先,为了衡量F-GVE的解释方法是否具有语义特征和对卷积神经网络的更细粒度的可视化解释,选取在ImageNet数据集上训练好的VGG-16模型对于任何给定的图像分别应用F-GVE和Grad-GAM进行目标类的可视化解释,如图2所示,可以看出F-GVE具有较好的可视化效果,并且比Grad-GAM更能突出细粒度的特征。
图2 F-GVE和Grad-CAM的解释结果对比
另外,解释是否忠实于原模型关系到解释的准确性,解释方法得到的重要区域对于决策结果的准确率的影响越大说明解释的准确度越高。于是,我们定义解释的可信度的评价标准,如表1所示,F-GVE所给出的解释比Grad-CAM的可信度更高。
表1 F-GVE和Grad-CAM的可信度对比
最后,通过实验发现相比其他方法,我们只需修改输入样本的较少特征,就可以更容易地欺骗模型,此外还可以解释样本错误分类的原因,然后通过将重要像素值替换为随机值来制作一些有针对性的训练样本,以增强原始训练数据并重新训练优化模型。