“反向传播算法”过程及公式推导(超直观好懂的Backpropagation)_反向传播算法(过程及公式推导)-程序员宅基地

技术标签: 机器学习  机器学习(ML)  深度学习(DL)  

前言(扯犊子)

自己学习机器学习,深度学习也有好长一段时间了,一直以来都想写点有价值的技术博客,以达到技术分享及记录自己成长的目的,奈何之前一直拖着,近来算是醒悟,打算以后不定时写一写博客,也算是作为自己不断学习,不断进步的记录。既然是写博客,希望自己的博客以后要做到“准确、生动、简洁、易懂”的水平,做到对自己、对读者负责,希望大家多交流,共同进步!

言归正传,想起当时自己刚入门深度学习的时候,当时对神经网络的“反向传播”机制不是很理解(这对理解以后的很多概念来说,很重要!!一定要搞懂!!),当时查了很多资料,花费了很多时间,感谢当时所查阅的很多资料的作者,本篇博客就网络上很多优秀的资料和我个人的理解,争取生动、简单地讲解一下BP算法,希望能够帮助到大家。

定义

首先来一个反向传播算法的定义(转自维基百科):反向传播(英语:Backpropagation,缩写为BP)是“误差反向传播”的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见方法。 该方法对网络中所有权重计算损失函数的梯度。 这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。(误差的反向传播)

算法讲解(耐心看)

如果去问一下了解BP算法的人“BP算法怎推导?”,大概率得到的回答是“不就是链式求导法则嘛”,我觉得这种答案对于提问题的人来说没有任何帮助。BP的推导需要链式求导不错,但提问者往往想得到的是直观的回答,毕竟理解才是王道。直观的答案,非图解莫属了。
注:下图的确是反向传播算法,但不是深度学习中的backprop,不过backward的大体思想是一样的,毕竟误差没法从前往后计算啊。(在深度学习中操作的是计算图—Computational graph),如果暂时不理解上面那句话,你可以当我没说过,不要紧~(手动?)

下面通过两组图来进行神经网络前向传播反向传播算法的讲解,第一组图来自国外某网站,配图生动形象。如果对你来说,单纯的讲解理解起来比较费劲,那么可以参考第二组图——一个具体的前向传播和反向传播算法的例子。通过本篇博客,相信就算是刚刚入门的小白(只要有一点点高等数学基础知识),也一定可以理解反向传播算法!

CASE 1(图示讲解,看不太懂没关系,看第二组图)

首先拿一个简单的三层神经网络来举例,如下:
在这里插入图片描述

每个神经元由两部分组成,第一部分(e)是输入值权重系数乘积的,第二部分(f(e))是一个激活函数(非线性函数)的输出, y=f(e)即为某个神经元的输出,如下:
在这里插入图片描述

下面是前向传播过程:
在这里插入图片描述
-----------手动分割-----------
在这里插入图片描述
-----------手动分割-----------
在这里插入图片描述

到这里为止,神经网络的前向传播已经完成,最后输出的y就是本次前向传播神经网络计算出来的结果(预测结果),但这个预测结果不一定是正确的,要和真实的标签(z)相比较,计算预测结果和真实标签的误差( δ \delta δ),如下:
在这里插入图片描述

下面开始计算每个神经元的误差( δ \delta δ):
在这里插入图片描述
(If propagated errors came from few neurons they are added. The illustration is below: )

在这里插入图片描述

下面开始利用反向传播的误差,计算各个神经元(权重)的导数,开始反向传播修改权重(When the error signal for each neuron is computed, the weights coefficients of each neuron input node may be modified. In formulas below d f ( e ) d e \dfrac {df\left( e\right) }{de} dedf(e) represents derivative of neuron activation function (which weights are modified). ):
在这里插入图片描述
在这里插入图片描述
-----------手动分割-----------
在这里插入图片描述
-----------手动分割-----------
在这里插入图片描述

Coefficient η \eta η affects network teaching speed.
到此为止,整个网络的前向,反向传播和权重更新已经完成,推荐参考上面给出的本教程的链接,如果对纯理论讲解较难接受,没关系,强烈推荐第二组图的例子!!!

CASE 2(具体计算举例,嫌麻烦的可直接看这个,强烈推荐!!!!!)

首先明确,“正向传播”求损失,“反向传播”回传误差。同时,神经网络每层的每个神经元都可以根据误差信号修正每层的权重,只要能明确上面两点,那么下面的例子,只要会一点链式求导规则,就一定能看懂!

BP算法,也叫 δ \delta δ算法,下面以3层的感知机为例进行举例讲解。
在这里插入图片描述

上图的前向传播(网络输出计算)过程如下:(此处为网络的整个误差的计算,误差E计算方法为mse)

在这里插入图片描述

上面的计算过程并不难,只要耐心一步步的拆开式子,逐渐分解即可。现在还有两个问题需要解决:

  1. 误差E有了,怎么调整权重让误差不断减小?
  2. E是权重w的函数,何如找到使得函数值最小的w。

解决上面问题的方法是梯度下降算法(简单图示如下),大家如有不太懂的可先行查阅别的资料,只要能达到理解线性回归梯度下降算法的水平即可,这里不再赘述。
在这里插入图片描述

划重点,划重点,划重点!!!
BP算法的具体例子来喽!!

就算上面的所有东西你都看的迷迷糊糊,通过下面的例子,相信绝大多数人也能很轻松的理解BP算法。如图是一个简单的神经网络用来举例:
在这里插入图片描述

下面是前向(前馈)运算(激活函数为sigmoid):
在这里插入图片描述

下面是反向传播(求网络误差对各个权重参数的梯度):

我们先来求最简单的,求误差E对w5的导数。首先明确这是一个“链式求导”过程,要求误差E对w5的导数,需要先求误差E对out o1的导数,再求out o1对net o1的导数,最后再求net o1对w5的导数,经过这个链式法则,我们就可以求出误差E对w5的导数(偏导),如下图所示:
在这里插入图片描述

导数(梯度)已经计算出来了,下面就是反向传播与参数更新过程
在这里插入图片描述

上面的图已经很显然了,如果还看不懂真的得去闭门思过了(开玩笑~),耐心看一下上面的几张图,一定能看懂的。

如果要想求误差E对w1的导数,误差E对w1的求导路径不止一条,这会稍微复杂一点,但换汤不换药,计算过程如下所示:
在这里插入图片描述

至此,“反向传播算法”及公式推导的过程总算是讲完了啦!个人感觉,尤其是第二组图,还算是蛮通俗易懂的,希望能帮助到大家,共同进步!

感觉本篇讲的有点啰嗦了,直接放第二组图可能会更简洁,以后争取改进。

以上(麻烦大家 点赞 + 关注 一波啊)

References

http://galaxy.agh.edu.pl/~vlsi/AI/backp_t_en/backprop.html
https://www.cnblogs.com/charlotte77/p/5629865.html
https://blog.csdn.net/han_xiaoyang

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/ft_sunshine/article/details/90221691

智能推荐

Android Fragment简介_android fragment包括-程序员宅基地

文章浏览阅读407次。Fragment概述介绍Fragment是一种可以嵌入在活动中的UI片段,能够让程序更加合理和充分地利用大屏幕的空间,出现的初衷是为了适应大屏幕的平板电脑,可以将其看成一个小型Activity,又称作Activity片段。使用Fragment可以把屏幕划分成几块,然后进行分组,进行一个模块化管理。Fragment不能够单独使用,需要嵌套在Activity中使用,其生命周期也受到宿主Activity的生命周期的影响。2.特点·Fragment依赖于Activity,不能独立存在·一个Act_android fragment包括

jQuery 个人之前的笔记_jquery详细笔记-程序员宅基地

文章浏览阅读2.7k次,点赞3次,收藏5次。jQuery 基础篇概述jQuery是一款优秀的JavaScript库 ,从命名可以看出jQuery最主要的用途是用来做查询(iQuery=js+Query) ,正如jQuery官方Logo副标题所说(write less, domore)使用jQuery能 上我们对HTML文档遍历和操作、事件处理、动画以及Ajax变得更加简单入门和原生JS区别1、原生JS: 等DOM元素加载完毕,并且图片也加载完毕才会执行 编写多个入口函数,后面会覆盖前面2、jQuery 等Dom元素加载完毕,但_jquery详细笔记

C++实现Delaunay三角网生长算法_增量法生成delaunay三角网-程序员宅基地

文章浏览阅读8.4k次,点赞25次,收藏142次。一、概述1.1 三角网的介绍三角网是由一系列连续三角形构成的网状的平面控制图形,是三角测量中布设连续三角形的两种主要扩展形式,同时向各方向扩展而构成网状.适用于地势起伏大,通视条件比较好的场地。三角网是实现地形三维可视化,数字地面模型(Digital Terrain Model,简称DTM)是一种很有效的途径。DTM主要是由栅格和不规则三角网(Triangulated Irregular Network,简称TIN)两种数据格式来表示,相比于栅格TIN具有许多..._增量法生成delaunay三角网

TCGA数据下载和整理工具----GDCRNATools_gdcrnatools软件包进行差异基因分析-程序员宅基地

文章浏览阅读1.9w次,点赞7次,收藏62次。TCGA数据下载和整理的网站及软件发表很多了,比如Broad GDAC Firehose, Oncomine, TCGAbiolinks,TCGA-Assembler, TCGA2STAT,RTCGAToolbox等等,这些网站或软件要么使用的是TCGA更新前的数据,要么运行起来比较繁琐。当然各个工具都有其优势所在。之前在论坛里分享了自己下载和整理TCGA数据的Python代码。最近忙里偷_gdcrnatools软件包进行差异基因分析

win7更改计算机时间,win7系统自动更改日期时间是怎么回事-程序员宅基地

文章浏览阅读1.9k次。工具/原料硬件:计算机操作系统:Windows7方法/步骤1.Windows7系统不能更改日期和时间的解决方法2.在本地组策略编辑器窗口,展开Windows设置 - 安全设置 - 本地策略;3.在本地策略中找到:用户权限分配,左键点击:用户权限分配,在用户权限分配对应的右侧窗口找到:更改系统时间,并左键双击:更改系统时间;4.在打开的更改系统时间 属性窗口,我们点击:添加用户或组(U);5.在选择..._win7系统时间老是自己跳变

Python-Django-模型_pycharm怎么创建orm模型-程序员宅基地

文章浏览阅读1k次。一、ORM 模型介绍1 、 ORM 模型对象关系映射(英语:(Object Relational Mapping,简称ORM,或ORM,或OR mapping),是一种程序技术,用于实现面向对象编程语言里不同类型系统的数据之间的转换。面向对象是从软件工程基本原则(如耦合、聚合、封装)的基础上发展起来的,而关系数据库则是从数学理论发展而来的,两套理论存在显著的区别。为了解决这个不匹配的现象,对象关系映射技术应运而生。对象关系映射(Object-Relational Mapping)提供了概念性的、_pycharm怎么创建orm模型

随便推点

Java给JPanel添加彩虹边框_给jpanel加边框-程序员宅基地

文章浏览阅读685次。使用多线程RGB变换为JPanel添加五彩斑斓的特效_给jpanel加边框

华为p8升级android8系统资源,华为新系统广受好评 目前EMUI10升级用户数已破亿-程序员宅基地

文章浏览阅读844次。华为消费者BG软件部总裁王成录昨日宣布,升级EMUI10的用户数已经突破1亿,涵盖35款机型。该数据不但充分展现了华为手机庞大的用户基数,也体现了华为在系统升级方面所付出的努力,正得到众多用户的肯定与支持。确定 时延引擎 与方舟编译器,解决安卓卡顿问题安卓手机曾经为人所诟病的一点要数“卡顿”,手机越用越慢,严重影响着安卓用户的用机体验。四年前,随着提出“天生快、一生快”标语的EMUI5.0发布,华..._华为p8最新系统

微服务架构,这一篇就够了!-程序员宅基地

文章浏览阅读1.9k次。所有的微服务都是独立的Java进程跑在独立的虚拟机上,所以服务间的通信就是IPC(inter process communication),已经有很多成熟的方案。原来的Monolithic方式开发,所有的服务都是本地的,UI可以直接调用,现在按功能拆分成独立的服务,跑在独立的一般都在独立的虚拟机上的 Java进程了。它通常不依赖其他服务。后台有N个服务,前台就需要记住管理N个服务,一个服务下线/更新/升级,前台就要重新部署,这明显不服务我们 拆分的理念,特别当前台是移动应用的时候,通常业务变化的节奏更快。_微服务架构

主键索引和非主键索引的区别-程序员宅基地

文章浏览阅读871次。总的来说,主键索引是表的唯一标识索引,具有唯一性和快速访问的特点;而非主键索引可以提供更多的灵活性和覆盖更多的查询场景,但可能性能略低于主键索引。_主键索引和非主键索引的区别

linux启动进入bios设置密码,通过bios怎么设置开机密码-程序员宅基地

文章浏览阅读1.2k次。电脑不想被他人乱动,来设置下BIOS管理员密码和开机密码,就让学习啦小编来告诉大家通过bios怎么设置开机密码的方法吧,希望对大家有所帮助。通过bios设置开机密码方法计算机开机以后,按键盘的Delete键进入BIOS的设置画面,如下图所示。因为开机可以按Delete键进入设置画面的时间很短,您可以在计算机一开机就慢慢的重复按Delete键,以免错过进入设置画面又要重新再开机。按键盘向下箭头键移到..._bios开机密码 画面

批处理获取所有文件、文件夹名字_bat获取文件夹下所有文件名和文件夹名称-程序员宅基地

文章浏览阅读1.6w次,点赞14次,收藏45次。已收藏下面这个链接的方法也不错excel批处理技巧:如何制作文件档案管理系统excel批处理技巧:如何制作文件档案管理系统http://www.360doc.com/content/18/0913/13/18781560_786337463.shtml有时候我们整理文件的时候需要列出文件夹里面所有的文件名或者文件夹名,生成一个文件目录,一个个重命名然后复制到word或者记事本的方法显示有点太繁琐了。网上有一些自动生成文件目录的程序,比如我之前一直在用的DirIndex.exe。但最近我发现_bat获取文件夹下所有文件名和文件夹名称