当前位置: 主页 > 学术动态 >

多尺度子群体交互关系下的群体行为识别方法

点击数:   更新日期: 2024-05-28

中文题目:多尺度子群体交互关系下的群体行为识别方法

论文题目Group Activity Recognition under Multi-scale Sub-group Interaction Relationships

录用期刊/会议电子与信息学报 (CCF中文C)

原文DOIhttps://doi.org/10.11999/JEIT231304

原文链接:https://jeit.ac.cn/cn/article/doi/10.11999/JEIT231304

录用/见刊时间:2024.5.11

作者列表

1) 朱丽萍 中国石油大学(北京)信息科学与工程学院/人工智能学院 计算机系教师

2) 吴祀霖 中国石油大学(北京)信息科学与工程学院/人工智能学院22

3) 陈晓禾 中国石油大学(北京)信息科学与工程学院/人工智能学院 计算机系教师

4) 李承阳 北京大学计算机学院 计算机软件与理论专业 博20

5) 朱凯杰 中国石油大学(北京)信息科学与工程学院/人工智能学院20

背景与动机:

群体行为识别是视频理解领域中的关键科学问题,在安防、预警、社会管理等领域发挥着重要作用。传统的行为识别一般仅关注个别或少数人的信息,然而,群体行为识别面对的场景通常包含大量个体,呈现出复杂多样的情境。具体来说,群体行为识别算法不仅需要准确识别个体的行为,还需要将这些个体的信息集成,从而推断整个群体的行为。

目前,群体行为识别领域面临着两个主要挑战:如何将多个个体划分为子群体并建立层次结构,以及如何捕捉具有判别性的个人交互特征。对于第一个挑战,通常采用基于层次结构的划分方法,例如,层次关系网络根据个体空间位置划分多个不同尺度的子群体。对于第二个挑战,许多方法利用个体的外观特征和空间位置来建模它们之间的关系,如关系图方法利用点乘法来度量特征相似度。然而,过去的方法通常仅考虑了子群体之间的空间位置关系,忽略了行为的相似性和子群体的动态变化。此外,对于交互关系的建模,以往的方法主要关注个体之间的关系,却忽略了对子群体之间关系的深入研究。因此,如图1所示,本文提出从动态子群体的角度入手,以更好地建模子群体之间的交互关系,为群体活动识别领域提供了新的解决方案。



1 考虑或不考虑子群体关系的群体行为识别效果对比图

设计与实现:

本文提出了一种名为多尺度子群体交互关系(MSIR)的群体行为识别网络。该网络包含两个关键模块:子群体划分模块(SDM)和子群体交互特征提取模块(SIFEM)。SDM通过融合空间位置和外观特征来动态地构造语义上相似的子群体。SIFEM则使用关系邻接矩阵来建模子群体间的交互关系,并引入关系注意力矩阵以筛选出判别性关系特征,从而提高识别的准确性。整体框架图如图2所示。



2 MSIR的整体架构

本文设计的子群体划分模块SDM旨在通过更好地捕捉个体的行为语义信息来优化子群体的划分。它首先使用多层感知器将个体的空间位置信息映射到特征维度,然后与外观特征相加,得到每个个体的综合特征。接着,通过计算这些特征之间的余弦相似度,动态地规划出子群体。通过调整参数k,可以构建不同尺度的子群体,以捕捉更丰富的交互关系。此外,还设计了一种扩展选择策略,通过比较最相似的k个个体,形成更具表达力的群体行为特征。

SIFEM模块旨在分析和捕捉子群体之间的交互关系。首先,使用几何矩阵从子群体的空间位置信息中提取交互特征。这一过程利用了子群体之间的欧式距离,使得更接近的子群体具有更高的相关性。接着,通过关系注意力矩阵,考虑了子群体之间的特征相似性,以更全面地捕捉不同空间距离上的交互关系。这两个矩阵的结合形成了关系邻接矩阵RAM,其中采用了稀疏策略以防止模型过拟合。

在交互特征学习阶段,采用了两个图卷积网络(GCN)层来聚合特征,以获得子群体的交互特征。第一层GCN根据RAM进行推理,计算得到每个子群体的交互特征。具体地,对于每对子群体ab,计算其之间的RAM矩阵,并使用GCN层将子群体b的特征与RAM作为输入,从而得到子群体a的交互特征。类似地,使用相同的操作计算子群体b的交互特征。接着,为每个子群体定义邻接信息矩阵A,以建立当前个体与子群体中其他个体之间的连接关系。第二层GCN以第一层的输出和邻接信息矩阵A作为输入,输出最终的子群体交互特征。通过这一过程,得到了具有T×N×D维度的子群体交互特征,其中T代表时间步数,N代表子群体数量,D代表特征维度。其中交互关系矩阵的实现细节如图3所示。



3 交互关系矩阵融合处理过程

实验结果及分析:

在排球数据集和集体行为数据集上地表现如表1所示,MSIR能够以较高的准确率来完成群体行为识别任务。此外针对子群体划分方法以及子群体尺度的消融实验分别如表2和表3所示,通过结果主要有以下四点观察:

1.本文提出的MSIR方法在排球数据集上达到了95.2%的准确率,在集体行为数据集上达到了96.4%的准确率,均略高于SOTA方法。这是因为MSIR充分利用了子群体级别信息,加强了对多尺度交互特征的学习,而其他方法要么忽略子群体语义,要么在子群体划分和推理上不够精细。

2.表2的实验验证了子群体划分模块(SDM)的有效性,结果显示其能显著提高识别效果。相比扩张选择策略,SDM划分的子群体因低相似度和低冗余度而表现更佳,最终选择k个最相似的个体组成子群体。

3.表3的实验定量比较了不同尺度子群体对群体行为识别性能的影响,相比不使用子群体的模型,准确率分别提升了4.4%和7%。这些结果证明了群体行为识别受益于多层次结构中子群体交互信息的利用。

4.图4的可视化效果可以看出,RAM能够准确地捕捉并学习子群体之间的关键交互信息。例如,在第三列中,击球手和拦截者之间的关系具有较大的权重值,这种相互作用对于识别进攻的群体行为非常重要。

1 排球测试数据集和集体行为测试数据集上不同方法的准确率(%)比较

2 子群体划分模块的定向实验比较(%)


3 子群体尺度的定量实验比较(%)



4 一些视频帧中RAM的可视化

结论:

本文提出一种新型基于多尺度子群体的多层次群体识别网络框架MSIR。研究通过探索个体和子群体之间的交互关系,并结合关系图推理,实现了个体行为和群体行为的同时分类。该框架涵盖了子群体分支和个体分支,用于提取子群体和个体之间的交互特征。在子群体分支中,本文设计了子群体划分模块,该模块实现了一种符合人类逻辑且具有较高可解释性的子群体划分方法。此外,还设计了一种关系邻接矩阵,并将其应用于子群体交互特征提取模块,以表示子群体之间复杂潜在的交互关系。相对于其它研究结果,本方法在两个公共数据集上都取得了较好的性能结果。同时,在有限的显存情况下,该算法表现出良好的群体行为泛化能力。

作者简介:

       朱丽萍,博士。中国石油大学(北京)信息科学与工程学院/人工智能学院计算机系副教授,硕士生导师。目前主要研究方向是大数据和数据挖掘方向,尤其关注深度学习在计算机视觉方向上的应用,已发表论文多篇高水平论文。

       联系方式:zhuliping@cup.edu.cn