中文题目:开放集条件下群体活动识别的再思考
论文题目:Rethinking group activity recognition under the open set condition
录用期刊/会议:The Visual Computer (中科院SCI 3区,JCR Q2,CCF C)
原文DOI:https://doi.org/10.1007/s00371-024-03424-0
原文链接:https://link.springer.com/article/10.1007/s00371-024-03424-0
录用/见刊时间:2024.5.13
作者列表:
1) 朱丽萍 中国石油大学(北京)信息科学与工程学院/人工智能学院 计算机系教师
2) 吴祀霖 中国石油大学(北京)信息科学与工程学院/人工智能学院 硕22
3) 常宪祥 中国石油大学(北京)信息科学与工程学院/人工智能学院 硕22
4) 杨逸萱 中国石油大学(北京)信息科学与工程学院/人工智能学院 硕22
5) 李 轩 中国石油大学(北京)信息科学与工程学院/人工智能学院 硕22
背景与动机:
群体行为识别旨在识别群体环境中的预定义人类活动类别。这些行为包括简单动作和复杂互动,在体育和公共安全等领域有广泛应用。然而,预定义类别在训练过程中存在局限性,无法涵盖所有现实世界的活动类型。
尽管现有的群体行为识别模型取得了重大进步,但在识别训练数据中未包含的行为方面仍存在一个显著的挑战。图1揭示了在群体识别任务中开集与闭集场景之间的差异,突出了在闭集环境下训练的传统模型在适应现实生活应用方面的局限性。在闭集场景中,模型基于一组固定的类别进行训练,并假定所有遇到的行为都属于这些预定义的类别之一。而在开集场景中,模型必须能够识别那些在训练数据中未出现过的行为,并将它们视为新颖或未知类别。因此,迫切需要设计一种能够在开集环境下运作的群体行为识别模型,以克服传统方法在处理未知类别时遇到的固有局限。在这种情况下,开集群体活动识别被定义为一个计算任务,其目标是识别和分类群体内的集体行为,特别是针对那些在训练过程中未预定义的未知行为。这一创新方法旨在提高群体行为识别模型在动态多变现实环境中的适应性。
图1 封闭集和开放集条件下群体行为识别的比较
设计与实现:
本研究提出的开集群体行为识别模型(OSGAR)旨在通过对视频样本进行不确定性估计,以确定其中群体活动的熟悉度。OSGAR方法主要利用嵌入的骨骼特征进行处理,采用两阶段的流程。首先,在Evidence Aware Collection(EAC)阶段,从不同尺度提取语义特征,并生成多组证据值。随后,在Evidence Aware Decision(EAD)阶段,利用注意力机制有选择地聚合这些证据,最终得到能够有效区分已知和未知类别的不确定性结果。整体而言,OSGAR方法的目的在于应对视频中群体活动的开放性判断问题,通过有效利用骨骼特征提高判断的准确性和泛化能力。OSGAR的整体架构如下图2所示。
图2 OSGAR的整体架构
首先本研究针对基于RGB的识别方法常见的背景噪声问题提出了解决方案,即利用骨架数据进行人体动作识别。具体而言,先利用HRnet提取初始骨架信息,然后将关节类型、时间位置和空间位置等先验信息嵌入到原始骨架中,生成每个个体的关节向量。这一过程利用拼接函数和前馈网络结合GCN学习得到最终的关键点特征表示,公式描述如下:
其次在证据收集阶段,要在在解决基于特征推断对样本不确定性估计的影响。该方法将群体活动分解为个体、子群体和整体三个尺度,然后利用证据感知收集方法从每个尺度收集证据特征。在个体水平,将骨架向量组合形成个体特征,并利用 Transformer 提取时间维度批次化的空间演化特征。在子群体水平,利用个体相似性划分子群体,并利用 Transformer 提取子群体特征。最后,将个体特征和子群体特征合并,以获得群体特征表示。在这些阶段中,Transformer 编码器结构都包含多头自注意力机制,能够捕捉同一尺度内不同个体之间的相关性表示,从而提高了模型的泛化能力,最终群体特征计算公式描述如下:
最终在证据融合阶段针对前期收集的多尺度证据,利用注意力机制将其融合然后输出样本的不确定度信息,与阈值相比较判断已知类别与未知类别的归属。
实验结果及分析:
本文依照开集环境要求,对现有对Volleyball数据集以及CAD数据集进行了开集划分如下表1所示。
表1 数据集开集分割方法
然后在V1-openset下与其他SOTA的对比结果如下表2所示。
表2 不同方法的比较
针对不同开集方法下,在两种分割策略下最终预测结果的比较如下图3所示。
图3 使用不同的开放集识别方法预测得分的可视化比较
结论:
本文介绍了开放集群体活动识别的概念,并提出了一个名为OSGAR的框架,作为在实际场景中识别群体活动的解决方案。OSGAR模型在不同尺度上建模群体活动,增强了对群体行为的层次理解,突出了子群体的优势。提出的两阶段方法,即证据感知收集和证据感知决策,聚合了来自不同尺度的证据,提供可靠的不确定性预测,有效应对了开放集场景的挑战。此外,本文在现有数据集上进行了开放集划分,并证明了提出的方法在区分已知和未知类别的同时保持高闭集识别能力方面表现良好。总体而言,OSGAR框架为开放集环境中的群体活动识别做出了有价值的贡献。
作者简介:
朱丽萍,博士。中国石油大学(北京)信息科学与工程学院/人工智能学院计算机系副教授,硕士生导师。目前主要研究方向是大数据和数据挖掘方向,尤其关注深度学习在计算机视觉方向上的应用,已发表论文多篇高水平论文。
联系方式:zhuliping@cup.edu.cn