CVPR2018论文阅读-Faster MPN-COV:迭代计算矩阵平方根以快速训练全局协方差池化_isqrt-cov-程序员宅基地

技术标签: 卷积神经网络  计算机视觉  深度学习  

论文地址 :Towards Faster Training of Global Covariance Pooling Networks by Iterative Matrix Square Root Normalization
工程地址:github 链接

深层卷积神经网络在计算机视觉的许多领域都获得了很大成功,这个网络实际上可以看成是学习和表示的过程,即经过层次化的卷积以及池化来学习图像特征,最后经过一个全局平均池化得到一个图像层面的表示,然后送给分类器进行分类。
该论文系列的工作重点关注最早在ICLR2014上提出的现在已经广泛的应用于主流的深层网络的全局平均池化,但是全局平均池化的问题在于,网络经过不断地学习得到一个表达能力很强的feature,但是最后在表示这个图像的时候却做了一个全局的均值,统计意义上来讲均值知识一阶的信息,这就让人困惑,为什么不能选择表达能力更强的表示呢?
基于这样的思考,论文作者团队提出了用一个二阶甚至高阶的统计方法来替换一阶的全局平均池化,即将一阶的均值替换为二阶的协方差,幂值取经验值0.5,解决了小样本高纬度难以统计的问题并且有效利用了协方差矩阵的几何结构,系列工作包括先前的CVPR2016(数学理论的推导和验证),ICCV2017(首次在大规模图像识别中使用并性能优异),以及CVPR2018也就是此次阅读的论文的迭代计算矩阵平方根提升速率。{2019-4-16刚放出来系列工作的最新进展-Deep CNNs Meet Global Covariance Pooling:Better Representation and Generalization}

0. 摘要

  卷积神经网络中使用全局协方差池化在许多任务上取得了显著的效果,但是特征值分解(EIG)和奇异值分解(SVD)在由于GPU缺乏对其的支持导致这种方法训练缓慢,为了解决这个问题,改论文提出使用迭代式的矩阵平方根算法来快速地对全局协方差矩阵池化进行端到端的训练。本质上,论文提出的方法是一个带有循环嵌套的有向图的元层(meta-layer),这个元层由三个连续的层组成,分别进行预正则化,牛顿-舒尔茨迭代和后补偿处理。该方法比之前基于EIG或者SVD计算矩阵平方根的方法快很多,因为方法中仅仅包含矩阵乘法,适合并行能力较强的GPU进行运算。而且论文提出的方法应用于ResNet能够加速ResNet的收敛从而加速网络训练,论文提出的方法在几个通用数据集上都取得了SOTA效果。

1. 介绍& 2. 相关工作

  

3. iSQRT-COV Network

  论文这一节首先概述文章提出的iSQRT-COV网络,然后解释了矩阵平方根的计算和正向传播,最后推导对应的梯度后向传播。

3.1 Overview of Method

在这里插入图片描述
  论文提到的方法的流程如上图所示,卷积层(带有ReLU)输出一个 h × w × d h \times w \times d h×w×d的张量,将这个张量调整为一个维度为d特征数为 n = w h n=wh n=wh特征矩阵X,然后通过 ∑ = X I ˉ X T \sum =X \bar IX^T =XIˉXT计算协方差矩阵应用二阶的池化,其中 I ˉ = 1 n ( I − 1 m 1 ) \bar I=\frac{1}{n}(I-\frac{1}{m}1) Iˉ=n1(Im11),而且I1分别是 n × n n \times n n×n的单位矩阵和全是1的矩阵。
  论文提出的meta-layer{循环嵌套的有向图结构}包含三个层,第一层(pre-normalization)将协方差矩阵按照它的迹或者F-范数进行划分以保证下一个阶段的牛顿-舒尔茨迭代的可收敛性,第二层则是一个循环结构,进行一定次数的耦合矩阵方程迭代以计算合适的矩阵平方根,第一层大幅调整了输入数据的量级,所以设计第三层的时候需要乘上平方根矩阵的迹。meta-layer的输出是一个对称矩阵,论文将这个矩阵的上三角区连成一个 d ( d + 1 ) / 2 d(d+1)/2 d(d+1)/2维的向量,并将其交付后续卷积网络。

3.2 矩阵平方根和正向传播

  矩阵特别是协方差矩阵的平方根都是正定矩阵,正定矩阵能够通过EIG或者SVD计算一个唯一的平方根,给定A为一个正定矩阵,其EIG可以写作 A = U d i a g ( λ i ) U T A=Udiag(\lambda_i)U^T A=Udiag(λi)UT,其中U是一个正交矩阵, d i a g ( λ i ) diag(\lambda_i) diag(λi)A的特征值组成的对角矩阵,则A的一个平方根就是 Y = U d i a g ( λ i 1 / 2 ) U T Y=Udiag(\lambda_i^{1/2})U^T Y=Udiag(λi1/2)UT,而且有 Y 2 = A Y^2=A Y2=A
牛顿舒尔茨迭代
  一种计算矩阵平方根的方法,为了计算A的平方根Y,假定对于 k = 1 , . . . , N , Y 0 = A , Z 0 = I k=1,...,N,Y_0=A,Z_0=I k=1,...,NY0=AZ0=I,则耦合迭代可以写成如下形式:
Y k = Y k − 1 p l m ( Z k − 1 Y k − 1 ) q l m ( Z k − 1 Y k − 1 ) − 1 Y_k=Y_{k-1}p_{lm}(Z_{k-1}Y_{k-1})q_{lm}(Z_{k-1}Y_{k-1})^{-1} Yk=Yk1plm(Zk1Yk1)qlm(Zk1Yk1)1

(1) Z k = p l m ( Z k − 1 Y k − 1 ) q l m ( Z k − 1 Y k − 1 ) − 1 Z k − 1 Z_k=p_{lm}(Z_{k-1}Y_{k-1})q_{lm}(Z_{k-1}Y_{k-1})^{-1}Z_{k-1}\tag{1} Zk=plm(Zk1Yk1)qlm(Zk1Yk1)1Zk1(1)

  其中 q l m 和 p l m q_{lm}和p_{lm} qlmplm是多项式, l 和 m l和m lm是非负整数,公式1局部收敛:如果||A-I||<1{ ∣ ∣ ⋅ ∣ ∣ ||\cdot|| 表示一致矩阵的范数},则 Y k Y_k Yk Z k Z_k Zk收敛至YY − 1 ^{-1} 1。该族迭代中之前的小误差不会得到放大。当 l = 0 , m = 1 l=0,m=1 l=0,m=1时称迭代为牛顿-舒尔茨迭代,此时与论文的目的即没有GPU不友好型的矩阵的逆的计算:
Y k = 1 2 Y k − 1 ( 3 I − Z k − 1 Y k − 1 ) Y_k=\frac{1}{2}Y_{k-1}(3I-Z_{k-1}Y_{k-1}) Yk=21Yk1(3IZk1Yk1)

(2) Z k = 1 2 ( 3 I − Z k − 1 Y k − 1 ) Z k − 1 Z_k=\frac{1}{2}(3I-Z_{k-1}Y_{k-1})Z_{k-1}\tag{2} Zk=21(3IZk1Yk1)Zk1(2)

  公式2中只涉及矩阵乘法,适合GPU上的并行计算,与通过EIG方法计算的精确的矩阵平方根相比,这种方法仅需要几次迭代就能得到一个较为准确的解,通过交叉验证的方法设置一个迭代次数N,与EIG或者SVD相比,实验表明这种方法得到了相同甚至略优的结果,迭代次数不超过5次。
正规化预处理和补偿式后处理 牛顿-舒尔茨迭代知识局部收敛通过对协方差矩阵进行如下处理{除以迹或者F-范数}:
A = 1 t r ( Σ ) Σ 或 者 1 ∣ ∣ Σ ∣ ∣ F Σ A=\frac{1}{tr(\Sigma)}\Sigma 或者\frac{1}{||\Sigma||_F}\Sigma A=tr(Σ)1ΣΣF1Σ

  设 λ i \lambda_i λi Σ \Sigma Σ的特征值,则 t r ( Σ ) = Σ i λ i , ∣ ∣ Σ ∣ ∣ F = Σ i λ i 2 tr(\Sigma)=\Sigma_i\lambda_i,||\Sigma||_F=\sqrt{\Sigma_i\lambda_i^2} tr(Σ)=ΣiλiΣF=Σiλi2 。而且可以看出 ∣ ∣ Σ − I ∣ ∣ 2 ||\Sigma-I||_2 ΣI2等于 1 − λ i Σ i λ i 或 者 1 − λ 1 Σ i λ i 2 1-\frac{\lambda_i}{\Sigma_i\lambda_i}或者1-\frac{\lambda_1}{\sqrt{\Sigma_i\lambda_i^2}} 1Σiλiλi1Σiλi2 λ1,和最大奇异值 Σ − I \Sigma-I ΣI相等,都小于1,所以收敛条件是满足的。
  以上对协方差矩阵的处理会降低数据的数量级,从而对网络有负面的影响,由此在牛顿舒尔茨迭代后需要根据预处理的操作进行一次后处理,即:
(4) C = t r ( Σ ) Y N 或 者 C = ∣ ∣ Σ ∣ ∣ F Y N C=\sqrt{ tr(\Sigma)}Y_N或者C=\sqrt{||\Sigma||_F}Y_N\tag{4} C=tr(Σ) YNC=ΣF YN(4)

  另一个可选的后处理方式就是Batch Normlization(BN),甚至不加任何后处理方式,但是论文的实验表明不叫后处理ResNet无法收敛,使用BN后处理话比论文提到的后处理会降一个百分点。

3.3 反向传播(BP)

  各个层的梯度是通过矩阵反向传播实现的,它建立在一阶泰勒公式的基础上,论文该节以使用矩阵的迹的预处理对相应的梯度进行说明。
后处理的BP 给定 ∂ l ∂ C \frac{\partial l}{\partial C} Cl l l l是损失函数,根据链式法则, t r ( ( ∂ l ∂ C ) T d C ) = t r ( ( ∂ l ∂ Y N ) d Y N + ( ∂ l ∂ Σ ) T d Σ ) tr((\frac{\partial l}{\partial C})^TdC)=tr((\frac{\partial l}{\partial Y_N})^dY_N+(\frac{\partial l}{\partial \Sigma})^Td\Sigma) tr((Cl)TdC)=tr((YNl)dYN+(Σl)TdΣ),经过一系列计算有:
∂ l ∂ Y N = t r ( Σ ) ∂ l ∂ C \frac{\partial l}{\partial Y_N}=\sqrt{tr(\Sigma)}\frac{\partial l}{\partial C} YNl=tr(Σ) Cl

(5) ∂ l ∂ Σ ∣ p o s t = 1 2 t r ( Σ ) ( ( ∂ l ∂ C ) T Y N ) I \frac{\partial l}{\partial \Sigma}|_{post}=\frac{1}{2\sqrt{tr(\Sigma)}}((\frac{\partial l}{\partial C})^TY_N)I\tag{5} Σlpost=2tr(Σ) 1((Cl)TYN)I(5)

牛顿-舒尔茨迭代的BP 上一阶段后,计算损失函数关于 ∂ l ∂ Y k \frac{\partial l}{\partial {Y_k}} Ykl ∂ l ∂ Z k \frac{\partial l}{\partial Z_k} Zkl的偏导,其中,k=N-1,…,1,其中 ∂ l ∂ Y N \frac{\partial l}{\partial Y_N} YNl通过公式5计算, ∂ l ∂ Z N = 0 \frac{\partial l}{\partial Z_N}=0 ZNl=0。因为协方差矩阵 Σ \Sigma Σ是对称的,所以从公式2可以看出 Y k 和 Z k Y_k和Z_k YkZk都是对称的,根据矩阵后向传播的链式法则和一些列计算,得到当 k = N , . . . , 2 k=N,...,2 k=N,...,2,有:
在这里插入图片描述

  最后一步是损失函数关于A的偏导,计算公式如下:
在这里插入图片描述

预处理的BP 从后处理层反向传播的信息需要结合损失函数 l l l关于协方差矩阵 Σ \Sigma Σ的梯度,根据公式3,可以得到:
在这里插入图片描述
  如果预处理采用F-范数的话,则后处理的梯度变为:
在这里插入图片描述

  响应的预处理阶段损失函数关于协方差矩阵的梯度可以写为:
在这里插入图片描述

  同时公式6中计算的牛顿-舒尔茨迭代的后向梯度保持不变。
  最终,给定 ∂ l ∂ Σ \frac{\partial l}{\partial \Sigma} Σl,损失函数 l l l关于输入矩阵的梯度可以这样计算:
在这里插入图片描述

4. 实验

4.1 牛顿-舒尔茨迭代迭代次数对于iSQRT-COV的影响

在这里插入图片描述

4.2 使用AlexNet架构网络训练的速度

在这里插入图片描述

4.3 选择Trace还是Frobenius Norm?

预处理
在这里插入图片描述
后处理
在这里插入图片描述

4.4 ResNet架构下不同网络的收敛情况

在这里插入图片描述

4.5 二阶池化方法和一阶池化方法的对比

在这里插入图片描述

5. 结论

  论文提出的通过迭代方法计算矩阵平方根的协方差池化网络iSQRT-COV Network能够进行端到端的训练,通过几次牛顿-舒尔茨迭代使得网络全程在GPU上计算的同时取得了SOTA效果。
  

欢迎扫描二维码关注微信公众号 深度学习与数学   [每天获取免费的大数据、AI等相关的学习资源、经典和最新的深度学习相关的论文研读,算法和其他互联网技能的学习,概率论、线性代数等高等数学知识的回顾]
在这里插入图片描述

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/kevin_zhao_zl/article/details/89330913

智能推荐

oracle 12c 集群安装后的检查_12c查看crs状态-程序员宅基地

文章浏览阅读1.6k次。安装配置gi、安装数据库软件、dbca建库见下:http://blog.csdn.net/kadwf123/article/details/784299611、检查集群节点及状态:[root@rac2 ~]# olsnodes -srac1 Activerac2 Activerac3 Activerac4 Active[root@rac2 ~]_12c查看crs状态

解决jupyter notebook无法找到虚拟环境的问题_jupyter没有pytorch环境-程序员宅基地

文章浏览阅读1.3w次,点赞45次,收藏99次。我个人用的是anaconda3的一个python集成环境,自带jupyter notebook,但在我打开jupyter notebook界面后,却找不到对应的虚拟环境,原来是jupyter notebook只是通用于下载anaconda时自带的环境,其他环境要想使用必须手动下载一些库:1.首先进入到自己创建的虚拟环境(pytorch是虚拟环境的名字)activate pytorch2.在该环境下下载这个库conda install ipykernelconda install nb__jupyter没有pytorch环境

国内安装scoop的保姆教程_scoop-cn-程序员宅基地

文章浏览阅读5.2k次,点赞19次,收藏28次。选择scoop纯属意外,也是无奈,因为电脑用户被锁了管理员权限,所有exe安装程序都无法安装,只可以用绿色软件,最后被我发现scoop,省去了到处下载XXX绿色版的烦恼,当然scoop里需要管理员权限的软件也跟我无缘了(譬如everything)。推荐添加dorado这个bucket镜像,里面很多中文软件,但是部分国外的软件下载地址在github,可能无法下载。以上两个是官方bucket的国内镜像,所有软件建议优先从这里下载。上面可以看到很多bucket以及软件数。如果官网登陆不了可以试一下以下方式。_scoop-cn

Element ui colorpicker在Vue中的使用_vue el-color-picker-程序员宅基地

文章浏览阅读4.5k次,点赞2次,收藏3次。首先要有一个color-picker组件 <el-color-picker v-model="headcolor"></el-color-picker>在data里面data() { return {headcolor: ’ #278add ’ //这里可以选择一个默认的颜色} }然后在你想要改变颜色的地方用v-bind绑定就好了,例如:这里的:sty..._vue el-color-picker

迅为iTOP-4412精英版之烧写内核移植后的镜像_exynos 4412 刷机-程序员宅基地

文章浏览阅读640次。基于芯片日益增长的问题,所以内核开发者们引入了新的方法,就是在内核中只保留函数,而数据则不包含,由用户(应用程序员)自己把数据按照规定的格式编写,并放在约定的地方,为了不占用过多的内存,还要求数据以根精简的方式编写。boot启动时,传参给内核,告诉内核设备树文件和kernel的位置,内核启动时根据地址去找到设备树文件,再利用专用的编译器去反编译dtb文件,将dtb还原成数据结构,以供驱动的函数去调用。firmware是三星的一个固件的设备信息,因为找不到固件,所以内核启动不成功。_exynos 4412 刷机

Linux系统配置jdk_linux配置jdk-程序员宅基地

文章浏览阅读2w次,点赞24次,收藏42次。Linux系统配置jdkLinux学习教程,Linux入门教程(超详细)_linux配置jdk

随便推点

matlab(4):特殊符号的输入_matlab微米怎么输入-程序员宅基地

文章浏览阅读3.3k次,点赞5次,收藏19次。xlabel('\delta');ylabel('AUC');具体符号的对照表参照下图:_matlab微米怎么输入

C语言程序设计-文件(打开与关闭、顺序、二进制读写)-程序员宅基地

文章浏览阅读119次。顺序读写指的是按照文件中数据的顺序进行读取或写入。对于文本文件,可以使用fgets、fputs、fscanf、fprintf等函数进行顺序读写。在C语言中,对文件的操作通常涉及文件的打开、读写以及关闭。文件的打开使用fopen函数,而关闭则使用fclose函数。在C语言中,可以使用fread和fwrite函数进行二进制读写。‍ Biaoge 于2024-03-09 23:51发布 阅读量:7 ️文章类型:【 C语言程序设计 】在C语言中,用于打开文件的函数是____,用于关闭文件的函数是____。

Touchdesigner自学笔记之三_touchdesigner怎么让一个模型跟着鼠标移动-程序员宅基地

文章浏览阅读3.4k次,点赞2次,收藏13次。跟随鼠标移动的粒子以grid(SOP)为partical(SOP)的资源模板,调整后连接【Geo组合+point spirit(MAT)】,在连接【feedback组合】适当调整。影响粒子动态的节点【metaball(SOP)+force(SOP)】添加mouse in(CHOP)鼠标位置到metaball的坐标,实现鼠标影响。..._touchdesigner怎么让一个模型跟着鼠标移动

【附源码】基于java的校园停车场管理系统的设计与实现61m0e9计算机毕设SSM_基于java技术的停车场管理系统实现与设计-程序员宅基地

文章浏览阅读178次。项目运行环境配置:Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX(Webstorm也行)+ Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。项目技术:Springboot + mybatis + Maven +mysql5.7或8.0+html+css+js等等组成,B/S模式 + Maven管理等等。环境需要1.运行环境:最好是java jdk 1.8,我们在这个平台上运行的。其他版本理论上也可以。_基于java技术的停车场管理系统实现与设计

Android系统播放器MediaPlayer源码分析_android多媒体播放源码分析 时序图-程序员宅基地

文章浏览阅读3.5k次。前言对于MediaPlayer播放器的源码分析内容相对来说比较多,会从Java-&amp;amp;gt;Jni-&amp;amp;gt;C/C++慢慢分析,后面会慢慢更新。另外,博客只作为自己学习记录的一种方式,对于其他的不过多的评论。MediaPlayerDemopublic class MainActivity extends AppCompatActivity implements SurfaceHolder.Cal..._android多媒体播放源码分析 时序图

java 数据结构与算法 ——快速排序法-程序员宅基地

文章浏览阅读2.4k次,点赞41次,收藏13次。java 数据结构与算法 ——快速排序法_快速排序法