当前位置: 主页 > 学术动态 >

基于类别响应图和局部分级的人群密度估计

点击数:   更新日期: 2020-10-29


原文题目: Crowd density estimation based on classification activation map and patch density level

发表期刊:Neural Computing and Applications, 2020 (JCR Q1)

原文DOIhttps://doi.org/10.1007/s00521-018-3954-7

作者列表

1) 朱丽萍   中国石油大学(北京) 信息科学与工程学院

2) 李承阳   中国石油大学(北京) 信息科学与工程学院 计算机科学与技术系 研17-2

3) 杨中国  北方工业大学 信息学院

4) 袁   昆   渥太华大学 计算机科学系

5) 王  尚   中国石油大学(北京) 信息科学与工程学院 计算机科学与技术系 研16

背景与动机

监控摄像机与监控场景中的水平面有一定的倾角。由于透视效果,拍摄的图像具有以下现象:(1)如图1所示,形成“距离小,附近大”的效果。到摄像机的距离与占据图像的人像素成反比;(2)聚集了远处的人群,导致集中精神。这个会增加人群密度估计的难度。现有的算法主要是基于检测和回归的方法来解决上述问题,但在精度上并不令人满意。由于人像点少、遮挡严重,检测器在稀疏的街道场景中的性能较差。(3) 现有的基于回归的质量密度估计算法在20-50人的场景中是不准确的。在电梯、街道、天桥等真实场景中,必须掌握人群密度。它能及时提供人群分布和异常人群流动信息。总之,稀疏场景下的人群密度估计是一个热点和难点问题。

设计与实现

在本文中,我们的目标是在任意的摄像机视角和人群密度下,对任意的图像进行精确的人群计数。为了克服上述挑战,我们提出了一种带有行人类别响应激活图(CAM)的块尺度判别回归网络(PSDR),如下图所示。

950a82138885425394e35c098d1d39c8.png        

首先,基于分治思想,我们提出了一个称为块尺度判别回归网络(PSDR)的网络。PSDR将整个图像作为输入,输出一个密度图,密度图的像素值总和为总体的人群计数。在设计密度等级时,我们使用最接近实际情况的密度分类策略。这里模型采用基础的VGG16网络来实现。实验结果表明,采用图像块进行尺度分割比整体分割效果好。


1.png          


2.png

image.png

其次,我们提出了一种行人类别响应激活图(CAM)方法来改进整个密度图的预测。其原因是由于图像的片分割,使得图像斑片边缘的人头信息丢失。因此,我们将person CAM添加到我们的模型中。人摄像头使模型聚焦于人的头部区域。实验证明,行人类别响应激活图可以提高PSDR的性能。

整体的模型训练方法如下图所示:

821d91fd962f49de8d096ae9aea590d8.png


本文在ShanghaiTech数据集、SmartCity数据集、UCF_CC_50数据集和UCSD数据集上进行了实验,均达到了SOTA水平。本文模型在不同规模的人群图片上的实验结果如下图所示:

5.png

关于作者

朱丽萍:博士,计算机系副教授,硕士生导师。目前主要研究方向是大数据和数据挖掘方向,尤其关注深度学习在计算机视觉方向上的应用,已发表论文多篇高水平论文。联系方式:zhuliping@cup.edu.cn