中文题目:基于多尺度时空信息挖掘的深度伪造人脸视频检测
论文题目:Mining Generalized Multi-timescale Inconsistency for Detecting Deepfake Videos
录用期刊/会议:International Journal of Computer Vision (CCF-A类期刊)
原文DOI:https://doi.org/10.1007/s11263-024-02249-7
原文链接:https://link.springer.com/article/10.1007/s11263-024-02249-7
录用/见刊时间:2024.10.9
作者列表:
1)于 洋 中国石油大学(北京)人工智能学院 电子系 教师
2)倪蓉蓉 北京交通大学 计算机与技术学院 信息科学研究所 教师
3)杨思远 南洋理工大学 电气与电子工程学院 ROSE实验室 博士后
4)倪 禹 字节跳动
5)赵 耀 北京交通大学 计算机与技术学院 信息科学研究所 教师
6)Alex C. Kot南洋理工大学 电气与电子工程学院 ROSE实验室 教师
摘要:
近年来,人脸视频伪造技术的进步带来了新的社会安全隐患。现有检测方法的泛化能力较弱,主要由于时空异常信息提取不足和难以应对不同伪造技术间的分布差异。为解决这些问题,本文提出了一种创新的检测算法,重点在于挖掘多尺度时空信息捕捉全面的异常伪影,并减少特征分布差异,从而提升模型的泛化性能。实验结果表明,本文算法在深度伪造视频检测方面优于现有的最先进方法。
背景与动机:
深度伪造视频是逐帧生成的,可能造成时空异常信息。因此挖掘时空信息线索在提升深度伪造视频的检测能力方面具有关键作用。时空异常信息会存在于短时连续帧中,同时也会存在于长时非连续帧中,先前的研究忽略了两种时间视角的交互作用,导致时空异常信息提取不足。另外,伪造技术和数据集之间的存在较大的分布差异,现有算法无法处理。在此背景下,全面挖掘时空异常信息及和更好应对不同伪造技术间的分布差异显得尤为重要。
设计与实现:
图1 基于多尺度时空信息挖掘的深度伪造人脸视频检测框架
检测算法框架如图1所示,首先构建短时连续时间视图,通过稀疏采样选取关键动态不一致帧组。采用多路径时空信息放大模块,精准挖掘细微时空异常。其次,构建长时时间视图,通过图卷积网络同时学习多个时间组之间的关系,全面整合各时间组的交互效应,以全面捕捉时空异常。最后,设计域对齐模块,通过缩小不同伪造技术或数据集间的域间距离并扩大域内样本间的距离,构建更具泛化能力的特征空间。该算法的总损失为,包括真假分类损失及域对齐损失:
其中域对齐损失包括域间距离缩小损失及域内距离扩大损失:
通过以上损失函数,域对齐损失可以直接消除特征分布中的域偏差,我们的框架被引导学习域不变的不一致性表示,从而进一步提高检测深度伪造视频的泛化能力。
实验结果及分析:
我们准备了6个伪造人脸视频数据集,对于单数据库内的检测,我们的方法基本可以达到97%以上的准确率,如下图。
图2 单数据库内的检测结果
我们进一步评估所提算法在检测未知伪造技术检测方面的泛化能力。在此检测任务中,在FF++数据集中使用留一法策略进行实验,检测准确率可以达到93%以上,如下图。
图3 未知伪造技术的检测结果
另外,在四个时空伪造数据集上进行了跨数据集检测实验,模型在所有评估指标方面都取得了更好的表现,如下图。
图4 跨数据集的检测结果
结论:
现有检测方法泛化能力较弱,主要由于时空异常提取不足和伪造技术间分布差异。为此,本文提出创新检测算法,挖掘多尺度时空信息并减少特征分布差异,提升模型泛化性能。实验结果表明,该算法在深度伪造视频检测上优于现有最先进方法。
作者简介:
于洋,特任岗位副教授,2017年本科毕业于中国石油大学(北京)测控技术与仪器专业,2024年于北京交通大学获信号与信息处理专业博士学位,2021年获国家留学基金委资助于新加坡南洋理工大学进行博士联合培养。研究方向主要关注于多媒体信息安全,包括数字图像取证、数字视频取证以及深伪音视频取证等领域。在TMM、TCSVT、TOMM、SP、SPL、SPIC、ICASSP、PRCV等国际会议和期刊上发表学术论文10余篇,研究成果支撑国家自然科学基金重点项目、面上项目及企业横向项目中关键指标的完成。担任TMM、TIFS、TDSC、TIP等期刊审稿人。