CVPR 2019 IIAI 目标计数-程序员宅基地

点击我爱计算机视觉标星，更快获取CVML新技术

本文来自起源人工智能研究院（IIAI）。

本期以Object Counting为主题，简要介绍IIAI CVPR 2019录用论文中关于Counting的两篇。

Crowd Counting and Density Estimation by Trellis Encoder-Decoder Networks

作者：Xiaolong Jiang, Zehao Xiao, Baochang Zhang, Xiantong Zhen, Xianbin Cao, David Doermann, Ling Shao

论文链接：

https://arxiv.org/abs/1903.00853

Motivation

人群计数（crowd counting）和人群密度估计（density estimation）这两项视觉任务是实现人群管理、异常行为分析、场面监视等高阶任务的基础，近年来赢得了越发广泛的关注和研究热情。传统方法通常采用基于检测（detection-based）或者直接回归的方法（regression-based）来实现人群计数。

随着深度学习和CNN技术的不断发展，基于密度估计的人群计数方法已成功取代传统方法，实现了性能的飞跃。然而，如同其他利用深度CNN网络实现逐像素回归重建（image-wise reconstruction）的任务（例如语义分割，超像素，景深估计等）一样，密度估计方法中采用的（Encoder-Decoder）编/解码网络缺乏任务相关性，表现出一定的方法盲目性和单调性。其中，encoder网络多直接采用面向分类任务的卷积神经网络，它们往往着力于实现由spatial信息向channel-wise semantic信息的转化，在前向传播过程中将特征的空间维度不断通过池化的方式压缩转化为通道维的语义depth。显然，这样构型的网络不利于保持特征的空间信息完备性（spatial fidelity），从顶层设计上就不适用于像人群密度估计这样的，逐像素回归的，具有一定空间定位目的的任务。

本文针对这一问题，提出了一种新的Trellis Encoder-Decoder networks。Trellis networks采用了创新的multi-path decoder构型，配合上面向逐像素回归的较浅少降采的encoder，有效提高了所得密度估计图中像素级定位精确性，以及最终所得人群计数的准确性。同时，我们还针对图像重建类任务，提出了两种新颖的损失函数，有效缓解了传统mean-square-error（MSE）loss的像素空间独立性假设，提高了网络的训练效果。

Method

针对逐像素回归重建任务（即输出一张与输入图片同尺寸的，具有特定物理意义的，概率密度估计图），基于CNN的方法多采用hourglass构型的编/解码器网络。现有此类方法存在两大弊端，导致所得估计密度图的像素级定位精度和估计准确性不足。（1）编/解码器设计沿用传统分类网络构型，导致所的特征图以及最终估计图的空间维度过度缩减，从而丧失像素级定位精度；（2）单通道hourglass构型的编/解码器网络不能实现充分的跨尺度特征融合，从而无法同时达到最优的定位精度及估计准确性。针对这两个缺陷，我们在本文中提出了如下所示的Trellis网络：

编码器

如图所示，Trellis网络的编码器部分将降采样率控制为4，达到保持特征空间信息完备性的目的。具体来讲，输入512*512的图片，在整个编码和特征提取过程中只经历两个池化操作，降低在编码过程中对空间逐像素精度的损失。另外，为了提高网络对人群计数目标尺度变化大这个特点的适应，Trellis采用类inception的多尺度编码block，在每个卷积block利用不同大小的卷积核进行特征学习。具体编码器构型如下图所示：

解码器

解码器部分（如下图所示），不同于传统hourglass编/解码器的单通道特性，Trellis网络在不同的编码阶段（如图中标黄的1，2，3，4四个encoding block）同时开启多条解码通道。每一条解码通道内利用级联的解码block构成独立的特征流。在每条解码通道的底端，形成一个中段密度估计图。而在相邻的两条解码通道之间，不同的解码block内，来自于不同通道的尺度不同的特征通过密集skip connection（红色箭头）得到系统地融合。纵横交错，在Trellis网络中我们构建了一个多尺度融合的特征“栅格”，而“Trellis”网络也由此得名。这样一来，整个Trellis网络可以看作是多个单通道hourglass编/解码器的融合，实现更为充分系统的多尺度特征融合，从而得到像素级定位性以及估计准确性都更佳的密度估计图。基于此密度估计图，我们不仅可以得到更准确的人群计数结果，同时还可以观察更精确的人群空间分布情况。

分布式多监督

Trellis网络多通道特性还使得其具有更好的可训练性。利用多个中段密度估计图，我们在训练Trellis时采用了multi-loss的分布式多策略，即在每条解码通道的底端都施加一个损失函数进行，分布式地直接监督中段密度估计图的生成。如此以来，在back-propagation的过程中梯度的反传就有了多个起点。同时，由于Trellis本身“栅格”化密集多通道（多skip connection）连接特性，梯度流也的传导更为通畅。综合来看，在Trellis网络的前端梯度消失的问题可以得到极大缓解。实验也证明了Trellis网络的收敛性要优于传统单通道hourglass网络。值得注意的是，我们提出的分布式监督与现有的多监督（deep-supervision）等策略是不同的。现有的多监督往往是将loss直接施加在卷积过程中的特征图上。相比之下，我们是将多个loss施加在一个network ensemble的每个子网络的中段输出密度估计图上。这样一来，每个loss有着更为直观的物理意义和监督效力。同时，不同loss的组合也能发挥更大的监督性能。

Combinatorial损失函数

传统密度估计网络的训练均采用MSE损失函数。这种损失函数假设像素间的独立性，不利于监督估计所得密度图（Z）与ground truth（Y）之间的局部空间相关性。对此，我们提出了新的空间抽象loss（Spatial Abstraction Loss，SAL）和空间相关性loss（Spatial Correlation Loss，SCL）。前者通过在密度图上搭建由级联的池化层（共K层）构成的金字塔，来实现在不同空间抽象层上MSE的计算（式中Nk表示第k抽象层上像素总数，φ代表池化操作）：

后者则是直接约束两张密度图的归一化互相关系数，从而使得估计值在整体上趋紧ground truth（式中p、q为密度图中像素横纵坐标，P、Q为横纵坐标最大值）：

在传统的image reconstruction任务中，常用的MSE损失函数逐像素计算两图间的差值再取全局平均。这样的操作假设了每个像素的独立性，完全忽视了像素间的局部空间关联性，计算所得的损失函数值无法反映两张图像的空间结构性差别。我们提出的SAL通过空间降采得到不同空间尺度上的密度图金字塔，在金字塔的各层上分别计算MSE loss从而反映在不同abstraction level（即不同空间感受野）上两图的差别。另外，SCL直接通过互相关系数的计算反映两张图的全局相似性，在更高层上监督密度估计图的生成。在实验中，SAL与SCL通过一个加权系数λ进行组合。Combinatorial loss具体实现请见下图：

Experiments/Performance

我们将提出的基于Trellis编解码器网络的人群计数方法在四个主要的benchmark上与多个当前最优方法（MCNN，SwitchingCNN，SANet，CSRNet，CPCNN等等）进行了对比，取得了state-of-the-art的人群计数结果（人群计数性能指标采用mean-average-error（MAE）和mean-squared-error（MSE），见Table 2，3）。同时，我们的Trellis网络相比于其他方法能够生成质量更高更的密度估计图（由PSNR/SSIM指标衡量，见Table 4）。除了Trellis网络自身的系统性密集多尺度融合之外，这种高质量密度图的生成还取决于我们采用整图估计生成的策略，摈弃了其他方法惯用的剪裁分步估计的方法（patch-wise operation），从而有效回避了由于patch拼接导致的边界效应和异物。

特别地，我们通过ablation study说明了multi-path Trellis network，分布式监督，以及combinatorial loss这三大contribution各自对计数效果和密度估计图质量带来的贡献，具体结果见Table 1.

具体密度估计效果和计数精度见下图：

Object Counting and Instance Segmentation with Image-leve Supervision

作者：Hisham Cholakkal, Guolei Sun, Fahad Shahbaz Khan, Ling Shao

论文链接：

https://arxiv.org/pdf/1903.02494.pdf

代码链接：

https://github.com/GuoleiSun/CountSeg

Motivation

common object counting，又被称generic object counting，旨在精准地预测出自然场景图片中的不同类别目标的个数。已有工作大多采用localization-based方法，或者直接用回归模型预测目标数量。后者通常具有更好的预测效果，但是只能预测出目标的全局数量，无法给出目标的位置。除了全局数量信息，per-category density map的spatial distribution在很多视觉任务里也同样是非常有用的信息。density map的spatial distribution通常在crowd counting里被深入研究，但是自然场景图像并不像crowd counting里只有人群，它具有多个类别的目标，并且多数类别在多数图片中并不会出现；而且crowd counting通常需要instance-level (point-level或bounding box) supervision。本文提出image-level supervised density map estimation方法对自然场景图像做common object counting，不但预测出目标的数量，还给出目标的spatial distribution。为此，我们引入人类数少量目标时利用holistic cues非挨个计数的属性，提出image-level lower-count (ILC) supervised density map estimation，该方法不但适用于counting，对于image-level supervised instance segmentation也同样有效。

Method

整个网络架构如下图所示，具有两个分支，classification branch和density branch，利用ILC supervision联合训练。classification branch预测目标是否存在，并且为训练density branch生成pseudo ground-truth。density branch的loss function中有两项，global loss和spatial loss；density branch生成density map，以预测目标的全局数量和给出spatial distribution。具体各个分支、loss function的设计请参见原文。

Performance

和baseline、state-of-the-art方法在Pascal和COCO数据集上的比较分别如表1、3、4所示。Instance segmentation的表现效果如表5所示。

IIAI主页：http://www.inceptioniai.org/

专业交流群

关注最新计算机视觉与机器学习技术，欢迎加入52CV专业交流群，扫码添加CV君拉你入群，

（请务必注明:52CV）：

喜欢在QQ交流的童鞋可以加52CV官方QQ群：702781905。

（不会时时在线，如果没能及时通过还请见谅）

长按关注我爱计算机视觉

本文链接：https://blog.csdn.net/moxibingdao/article/details/106666874

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

使用nginx解决浏览器跨域问题_nginx不停的xhr-程序员宅基地

文章浏览阅读1k次。通过使用ajax方法跨域请求是浏览器所不允许的，浏览器出于安全考虑是禁止的。警告信息如下：不过jQuery对跨域问题也有解决方案，使用jsonp的方式解决，方法如下：$.ajax({ async:false, url: 'http://www.mysite.com/demo.do', // 跨域URL ty..._nginx不停的xhr

在 Oracle 中配置 extproc 以访问 ST_Geometry-程序员宅基地

文章浏览阅读2k次。关于在 Oracle 中配置 extproc 以访问 ST_Geometry，也就是我们所说的使用空间SQL 的方法，官方文档链接如下。http://desktop.arcgis.com/zh-cn/arcmap/latest/manage-data/gdbs-in-oracle/configure-oracle-extproc.htm其实简单总结一下，主要就分为以下几个步骤。..._extproc

Linux C++ gbk转为utf-8_linux c++ gbk->utf8-程序员宅基地

文章浏览阅读1.5w次。linux下没有上面的两个函数，需要使用函数 mbstowcs和wcstombsmbstowcs将多字节编码转换为宽字节编码wcstombs将宽字节编码转换为多字节编码这两个函数，转换过程中受到系统编码类型的影响，需要通过设置来设定转换前和转换后的编码类型。通过函数setlocale进行系统编码的设置。linux下输入命名locale -a查看系统支持的编码_linux c++ gbk->utf8

IMP-00009: 导出文件异常结束-程序员宅基地

文章浏览阅读750次。今天准备从生产库向测试库进行数据导入，结果在imp导入的时候遇到“ IMP-00009:导出文件异常结束” 错误，google一下，发现可能有如下原因导致imp的数据太大，没有写buffer和commit两个数据库字符集不同从低版本exp的dmp文件，向高版本imp导出的dmp文件出错传输dmp文件时，文件损坏解决办法：imp时指定..._imp-00009导出文件异常结束

python程序员需要深入掌握的技能_Python用数据说明程序员需要掌握的技能-程序员宅基地

文章浏览阅读143次。当下是一个大数据的时代，各个行业都离不开数据的支持。因此，网络爬虫就应运而生。网络爬虫当下最为火热的是Python，Python开发爬虫相对简单，而且功能库相当完善，力压众多开发语言。本次教程我们爬取前程无忧的招聘信息来分析Python程序员需要掌握那些编程技术。首先在谷歌浏览器打开前程无忧的首页，按F12打开浏览器的开发者工具。浏览器开发者工具是用于捕捉网站的请求信息，通过分析请求信息可以了解请..._初级python程序员能力要求

Spring @Service生成bean名称的规则（当类的名字是以两个或以上的大写字母开头的话，bean的名字会与类名保持一致）_@service beanname-程序员宅基地

文章浏览阅读7.6k次，点赞2次，收藏6次。@Service标注的bean，类名：ABDemoService查看源码后发现，原来是经过一个特殊处理：当类的名字是以两个或以上的大写字母开头的话，bean的名字会与类名保持一致public class AnnotationBeanNameGenerator implements BeanNameGenerator { private static final String C..._@service beanname

随便推点

二叉树的各种创建方法_二叉树的建立-程序员宅基地

文章浏览阅读6.9w次，点赞73次，收藏463次。1.前序创建#include<stdio.h>#include<string.h>#include<stdlib.h>#include<malloc.h>#include<iostream>#include<stack>#include<queue>using namespace std;typed_二叉树的建立

解决asp.net导出excel时中文文件名乱码_asp.net utf8 导出中文字符乱码-程序员宅基地

文章浏览阅读7.1k次。在Asp.net上使用Excel导出功能，如果文件名出现中文，便会以乱码视之。解决方法： fileName = HttpUtility.UrlEncode(fileName, System.Text.Encoding.UTF8);_asp.net utf8 导出中文字符乱码

笔记-编译原理-实验一-词法分析器设计_对pl/0作以下修改扩充。增加单词-程序员宅基地

文章浏览阅读2.1k次，点赞4次，收藏23次。第一次实验词法分析实验报告设计思想词法分析的主要任务是根据文法的词汇表以及对应约定的编码进行一定的识别，找出文件中所有的合法的单词，并给出一定的信息作为最后的结果，用于后续语法分析程序的使用；本实验针对 PL/0 语言的文法、词汇表编写一个词法分析程序，对于每个单词根据词汇表输出： (单词种类, 单词的值) 二元对。词汇表：种别编码单词符号助记符0beginb..._对pl/0作以下修改扩充。增加单词

android adb shell 权限,android adb shell权限被拒绝-程序员宅基地

文章浏览阅读773次。我在使用adb.exe时遇到了麻烦.我想使用与bash相同的adb.exe shell提示符,所以我决定更改默认的bash二进制文件(当然二进制文件是交叉编译的,一切都很完美)更改bash二进制文件遵循以下顺序> adb remount> adb push bash / system / bin /> adb shell> cd / system / bin> chm..._adb shell mv 权限

投影仪-相机标定_相机-投影仪标定-程序员宅基地

文章浏览阅读6.8k次，点赞12次，收藏125次。1. 单目相机标定引言相机标定已经研究多年，标定的算法可以分为基于摄影测量的标定和自标定。其中，应用最为广泛的还是张正友标定法。这是一种简单灵活、高鲁棒性、低成本的相机标定算法。仅需要一台相机和一块平面标定板构建相机标定系统，在标定过程中，相机拍摄多个角度下（至少两个角度，推荐10~20个角度）的标定板图像（相机和标定板都可以移动），即可对相机的内外参数进行标定。下面介绍张氏标定法（以下也这么称呼）的原理。原理相机模型和单应矩阵相机标定，就是对相机的内外参数进行计算的过程，从而得到物体到图像的投影_相机-投影仪标定

Wayland架构、渲染、硬件支持-程序员宅基地

文章浏览阅读2.2k次。文章目录Wayland 架构Wayland 渲染Wayland的硬件支持简述：　翻译一篇关于和 wayland 有关的技术文章, 其英文标题为Wayland Architecture .Wayland 架构若是想要更好的理解 Wayland 架构及其与 X (X11 or X Window System) 结构；一种很好的方法是将事件从输入设备就开始跟踪, 查看期间所有的屏幕上出现的变化。这就是我们现在对 X 的理解。内核是从一个输入设备中获取一个事件，并通过 evdev 输入_wayland