简介
- 论文名称:《Body Structure Aware Deep Crowd Counting》
- CNN分类
- 基础CNN
- 上下文感知
- 多任务模型
- 输入数据的分类
- 基于完整图像
个人收获
- 通过引入人的具体形状来避免了树叶,还有灯灯对人群计数的混淆;
- 在没有perspective map的情况下手动标记一张,然后应用全部,这是论文选择数据集的一个标准;
观点引入
影响人流统计的三个因素:行人、头、上下文信息(context structure)。2016 CVPR, 2017 CVPR 只考虑了行人因素(这个观点不能赞同,神经网络应该会自动提取上下文信息的),没有加入上下文信息。文中通过语义分割的观点来实现人流统计。两部分场景解析模型:第一部分为身体部分图,用来标记身体的部分,如图1,用不同的颜色标记出人的头,上身,和腿,文中接采用的是[2013 iccv Pedestrain parsing via deep decompositional network]提出的网络,及训练好的参数。第二部分为结构人群密度图。利用身体部分图产生的各个行人的详细形状,构建结构化的人群密度图。

本文采用多任务学习,具体分为以下三个任务:1,2如上描述的语义分割模型 3.评估人群数。
相关工作
- 人群计数
- 分为三类: 基于检测的,基于全局递归,基于密度评估的
- 行人语义分析
- 卷积神经网络
- 应用FCN 来实现场景解析模型。(去掉了后面的 全连接网络 改用conv2 1*1 )
方法
问题定义

身体部分图
本文应用了视野图(但是很多数据集是没有这个选项的,这也限制了这篇论文的应用场景)。M(p) 表示在位置P上 要用多少个像素表示1米。 一个人的左上角和右下角评估方法如下:

该论文假设人的高约2米内,宽1米内(可以在思考下为什么这么设置,虽然是实验结果)。

结构化密度图
结构密度图用于同时捕获密度分布和行人的形状(行人形状这个很好了解决了灯和树叶等问题)。
结构化的密度图:

多任务人群计数框架
