当前位置: 主页 > 学术动态 >

用互信息学习无监督解纠缠胶囊

点击数:   更新日期: 2022-09-06

中文题目:用互信息学习无监督解纠缠胶囊

录用时间:2022年4月26日

论文题目Learning Unsupervised Disentangled Capsule via Mutual Information

录用会议2022 International Joint Conference on Neural Networks(CCF C)

作者列表

1) 胡铭菲 (中国石油大学(北京) 信息科学与工程学院 自动化系) 控制科学与工程 博18

2) 泽宇 (中国石油大学(北京) 信息科学与工程学院 自动化系) 控制科学与工程 21

3) 刘建伟 (中国石油大学(北京) 信息科学与工程学院 自动化系)

文章简介:

解纠缠表示可以被定义为:表示中的某个单元对某个生成因子的变化敏感,同时对其他因子的变化相对不变。如果我们能够识别并分离出此类在语义上有意义的单元,对常见的下游任务如监督学习、迁移学习有所帮助。胶囊网络在部分基础数据集上获得了不错的效果,但总是倾向于学习到纠缠胶囊,这可能对后续的应用或重构任务等产生不利影响。本文提出了一种基于互信息约束的学习胶囊网络解纠缠表示的方法,利用信息论构造正则化约束的近似解。假设胶囊是从高斯分布中采样得到的,我们可以约束胶囊的均值为0,方差为1。但是实际上胶囊的方差与胶囊向量中神经元的个数、模型结构和输入数据的类型都有关,因此我们放弃对胶囊方差的约束,只约束胶囊的均值为0。

本文的贡献如下:

1)我们提出了Info-CapsNet,一个用互信息约束学习解纠缠胶囊的新方法,变分推断被用来构造信息瓶颈约束的下界,变分下界被近似替换为胶囊的均值约束,新的约束条件应用更简单,在胶囊网络中的效果更好。

2)我们提出了胶囊网络的无监督结构,以及对应的无监督动态路由算法。然后用大量的实验对比了我们的方法与β-VAEβ-TCVAE,证明了方法的有效性。

设计与实现:

在此,我们讨论信息瓶颈约束的基本原理和用互信息约束学习解纠缠胶囊的方法:给定输入数据x,目标y隐表示z,信息瓶颈认为约束输入和隐表示之间的互信息能够提升表示的可解释性。其定义等价于优化如下的目标函数:

(1)

第二项被当作一个正则项加入到其他模型的目标函数中,因此胶囊网络的目标函数包含三部分:分类损失,重构损失和信息约束项:


(2)

互信息用于衡量两个变量之间的相互关系,其定义中包含两个变量的联合概率分布,在深度神经网络中很难计算,我们用变分推断估计互信息并构造变分下界


(3)

在这种情况下,我们可以通过KL散度的权重调节解纠缠的自由度。然而我们发现实际上对胶囊的方差的约束是不合理的,其值通常远大于单位矩阵,此外还受到多个因素的影响。因此我们提出了一个更简单有效的约束方法:均值约束。我们发现通过限制胶囊变量的均值,可以有效提高学习解纠缠胶囊的能力,并改善解码器的重构能力以便生成更清晰的样本。此时均值约束的解析解为:


(4)

实验结果及分析:

MNIST:手写体数字是比较模型解纠缠能力的基础数据集之一,我们比较了原始胶囊网络和带互信息约束的胶囊网络(系数为3)的解纠缠能力,如图1所示。在互信息约束的影响下,我们的方法能够发现多个类别之间的连续变换,如从4到9再到7的转换。


1 MNIST数据集遍历效果

3D chairs:该数据集是基础数据集中解纠缠最有难度的,因为其容纳了非常多个类型的椅子,每种椅子只有不到一百张不同角度的图片。我们比较了Info-CapsNetβ-VAEβ-TCVAE的解纠缠效果,如图2所示,我们的方法有助于学习到更好的解纠缠特征,例如在学习椅子大小特性时,前两个模型总是倾向于学习与种类、角度等特性相互纠缠的因素,而我们的方法没有出现类似的问题。


2 3D chairs数据集遍历效果

celebA:该数据集由20万张真实的人脸样本组成,涵盖了多种类型、各个年龄段的样本,其包含的可解释因素是所有基础数据集中最多的。图3展示了我们的方法Info-CapsNet在数据集中能够发现的解纠缠因素。我们的算法学习到了11种可解释的因素,而不带有互信息约束的原始胶囊网络,通常只能学习到3到4个解纠缠的因素。


3 人脸数据集celebA遍历效果

通讯作者简介:

刘建伟,副教授

博士生导师/硕士生导师。长期从事模式识别与智能系统、复杂系统分析与智能控制、机器学习和数据挖掘方面的研究工作。美国数学会《数学评论》评论员,中国人工智能学会机器学习分会高级会员。在计算机学报,自动化学报、计算机研究与发展、Neurocomputing、TNNLS等期刊上和国内国际会议上发表学术研究论文200多篇,其中三大检索150多篇。联系方式:liujw@cup.edu.cn