body structure aware deep crowd counting

简介

  • 论文名称:《Body Structure Aware Deep Crowd Counting》
  • CNN分类
    • 基础CNN
    • 上下文感知
    • 多任务模型
  • 输入数据的分类
    • 基于完整图像

个人收获

  • 通过引入人的具体形状来避免了树叶,还有灯灯对人群计数的混淆;
  • 在没有perspective map的情况下手动标记一张,然后应用全部,这是论文选择数据集的一个标准;

观点引入

影响人流统计的三个因素:行人、头、上下文信息(context structure)。2016 CVPR, 2017 CVPR 只考虑了行人因素(这个观点不能赞同,神经网络应该会自动提取上下文信息的),没有加入上下文信息。文中通过语义分割的观点来实现人流统计。两部分场景解析模型:第一部分为身体部分图,用来标记身体的部分,如图1,用不同的颜色标记出人的头,上身,和腿,文中接采用的是[2013 iccv Pedestrain parsing via deep decompositional network]提出的网络,及训练好的参数。第二部分为结构人群密度图。利用身体部分图产生的各个行人的详细形状,构建结构化的人群密度图。

本文采用多任务学习,具体分为以下三个任务:1,2如上描述的语义分割模型 3.评估人群数。

相关工作

  • 人群计数
    • 分为三类: 基于检测的,基于全局递归,基于密度评估的
  • 行人语义分析
  • 卷积神经网络
    • 应用FCN 来实现场景解析模型。(去掉了后面的 全连接网络 改用conv2 1*1 )

方法

问题定义

身体部分图

本文应用了视野图(但是很多数据集是没有这个选项的,这也限制了这篇论文的应用场景)。M(p) 表示在位置P上 要用多少个像素表示1米。 一个人的左上角和右下角评估方法如下:

该论文假设人的高约2米内,宽1米内(可以在思考下为什么这么设置,虽然是实验结果)。

结构化密度图

结构密度图用于同时捕获密度分布和行人的形状(行人形状这个很好了解决了灯和树叶等问题)。
结构化的密度图:

多任务人群计数框架

如果您觉得有用的话