null - 程序员宅基地

【语义分割】深度学习中常见概念回顾（全大白话解释，一读就能懂！）_epoch/iter-程序员宅基地

技术标签：深度学习

记录一下常见的术语！

一、epoch、batch size和iteration

1.1 Epoch

定义：一个epoch指代所有的数据送入网络中完成一次前向计算及反向传播的过程。简而言之：训练集中的全部样本/数据 “喂” 给网络一次，就叫做一个epoch

补充1：在训练时，将所有数据迭代训练一次是不够的，需要反复多次才能拟合收敛，即：需要把数据集多放入网络训练几次。简而言之：看书看一遍是不够的的，需要多看几遍，神经网络也是。

补充2： 由于一个epoch常常太大，一次全 “喂” 给网络，计算机无法负荷，我们会将它分成几个较小的batch，即引出了batch size这个概念

1.2 Batch Size

定义：所谓Batch就是每次送入网络中训练的一部分数据，而Batch Size就是每个batch中训练样本的数量。其取值通常为：2^N，如：32、64、128…

作用： Batch Size 如果过小，训练数据就收敛困难；如果过大，虽然相对处理速度加快，但所需内存容量增加。使用中需要根据计算机性能和训练次数之间平衡Batch Size，其中一个epoch中的训练次数又叫做：iteration，迭代

1.3 Iteration

定义： iterations就是完成一次epoch所需的batch个数。

举个例子：我们有2000个数据，分成4个batch，那么batch size就是500。运行所有的数据进行训练，完成1个epoch，需要进行4次iterations。

1.4 其他版本

定义：
（1）batchsize：批大小，即：每次训练在训练集中取batchsize个样本训练；
（2）iteration：1个iteration等于使用batchsize个样本训练一次；
（3）epoch：1个epoch等于使用训练集中的全部样本训练一次；

举个例子：训练集有1000个样本，batchsize=10，则训练完一次整个样本集需要：
iteration = 1000 / 10 = 100 次
epoch = 1 个

参考

二、Softmax

简而言之，一个主要用于多分类求概率的函数，常应用：
（1）用于神经网络输出层
（2）和argmax函数合作用

示意图如下：在这里插入图片描述
参考：小白都能看懂的softmax详解

三、激活函数和卷积核

3.1 激活函数

概念：对数据进行映射。
（1）微观理解：若网络不使用激活函数，则只能处理线性数据；使用激活函数后，网络可处理非线性数据。如Relu函数，把直线（线性）“掰弯”（非线性）：
在这里插入图片描述
（2）宏观理解：使用激活函数，便于更好的提取图像特征

更多激活函数介绍详见：

3.2 卷积核

单一神经元模型如下图：
在这里插入图片描述
其中，
卷积核的大小：
（1）大小是提前预设的，常见的是3x3，但为什么是3x3，并没有理论依据，通过大量的实践测试得来的，这个大小最好用。
（2）还有一个特殊的是1x1的，一般做降维或者线性变换的时候用

卷积核内的每个参数值（权重）：
（1）核中每个参数的值是通过训练得来的，训练网络的过程，也就是训练这些参数的过程
（2）核中的权重（参数：W和b），最初都被初始化为随机值，最终不断优化训练网络、不断调整权重。
（3）在使用训练数据对网络进行BP训练时，W和b的值都会往局部最优的方向更新，直至算法收敛。所以卷积神经网络中的卷积核是从训练数据中学习得来的。（详情参考请点击）

那么，卷积核中的权重值是怎样进行修正的呢？用到了什么技术呢？请参考下述的：损失函数和优化器。

四、损失函数和优化器

背景介绍：
深度神经网络中的的损失用来度量我们的模型得到的的预测值和数据真实值之间差距，也是一个用来衡量我们训练出来的模型泛化能力好坏的重要指标。（损失函数）

对模型进行优化的最终目的是尽可能地在不过拟合的情况下降低损失值。（优化器）

两者关系：
先用损失函数计算出损失值，再基于损失值优化模型参数（卷积核参数）

4.1 损失函数

常见的有：均方误差函数、均方根误差函数、平均绝对误差函数等等。

详细的损失函数介绍，请参考：

4.2 优化器

优化器的鼻祖是：梯度下降（Gradient Descent，GD），其涉及：梯度和学习率。
GD是参数优化的基础方法，虽然已广泛应用，但是其自身存在许多不足，所以在其基础上改进的优化函数也非常多，比如：梯度下降最常见的三种变形 BGD，SGD，MBGD。

详细的优化器介绍，请参考：

五、上采样

常见的上采样方法有：双线性插值、转置卷积、上采样（unsampling）和上池化（unpooling）。其中前两种方法较为常见，后两种用得较少。

详情参考：上采样方法原理简介

六、归一化

6.1 归一化

概念：
传统机器学习中归一化也叫做标准化，其一般是将数据映射到指定的范围，用于去除不同维度数据的量纲以及量纲单位。如：有的特征取值范围[10<sup>9</sup>,10<sup>99</sup>]，另一些特征取值范围为[0,01, 0.1]，通过归一化可将这些不同取值范围的特征值映射到相同的范围，如将上述两个范围映射到[-1, 1]之间。

作用：
数据标准化让机器学习模型看到的不同取值范围的样本彼此之间更加形似，有助于模型的学习与对新数据的泛化。

6.2 批归一化

概念：Batch Normalization，批归一化和普通的数据归一化类似，是将分散的数据统一到某一特定区间的一种方法，也是优化神经网络的一种方法。

应用：
（1）在数据预处理时进行批归一化，可以加速网络收敛；
（2）在神经网络中进行批归一化，即：在网络的每一次变换之后进行数据归一化，也可加速网路收敛。为什么要在训练过程中批归一化？答：训练过程中均值和方差随时间发生变化，需重新对数据进行批归一化，这样网络每一层看到的数据都属于同一分布。
（3）批标准化一般放在：卷积层后，即：先卷积，后批标准化，再卷积，再批标准化

作用：
（1）批标准化解决的问题是梯度消失和梯度爆炸
（2）批标准化是一种训练优化方法
（3）具有正则化效果，可抑制过拟合
（4）可提高模型的泛化能力。因为：它可使同一神经网络的每一层看到的数据都属于同一分布范围，无论什么范围的数据过来，都能很好的处理。
（5）允许更高的学习速率从而加速网络收敛
（6）批标准化有助于梯度传播，因此可基于批标准化创建更深的网络，如：ResNet50、Inception V3和Xception等。

其他：
（1）BatchNormalization层通常在卷积层或密集连接层后使用，tf 2.0中对应函数：Tf.keras.layers.Batchnormalization()

七、过拟合问题解决

当网络训练后出现过拟合，如：训练集上准确率上升，验证集上准确率恒定，可采用：
（1）dropout层
（2）l1、l2正则化
解决过拟合问题。

本文链接：https://blog.csdn.net/sinat_29047129/article/details/106962711

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

874计算机科学基础综合,2018年四川大学874计算机科学专业基础综合之计算机操作系统考研仿真模拟五套题...-程序员宅基地

文章浏览阅读1.1k次。一、选择题1．串行接口是指( )。A. 接口与系统总线之间串行传送，接口与I/0设备之间串行传送B. 接口与系统总线之间串行传送，接口与1/0设备之间并行传送C. 接口与系统总线之间并行传送，接口与I/0设备之间串行传送D. 接口与系统总线之间并行传送，接口与I/0设备之间并行传送【答案】C2．最容易造成很多小碎片的可变分区分配算法是( )。A. 首次适应算法B. 最佳适应算法..._874 计算机科学专业基础综合题型

XShell连接失败：Could not connect to '192.168.191.128' (port 22): Connection failed._could not connect to '192.168.17.128' (port 22): c-程序员宅基地

文章浏览阅读9.7k次，点赞5次，收藏15次。连接xshell失败，报错如下图，怎么解决呢。1、通过ps -e|grep ssh命令判断是否安装ssh服务2、如果只有客户端安装了，服务器没有安装，则需要安装ssh服务器，命令：apt-get install openssh-server3、安装成功之后，启动ssh服务，命令：/etc/init.d/ssh start4、通过ps -e|grep ssh命令再次判断是否正确启动..._could not connect to '192.168.17.128' (port 22): connection failed.

杰理之KeyPage【篇】_杰理空白芯片烧入key文件-程序员宅基地

文章浏览阅读209次。00000000_杰理空白芯片烧入key文件

一文读懂ChatGPT，满足你对chatGPT的好奇心_引发对chatgpt兴趣的表述-程序员宅基地

文章浏览阅读475次。2023年初，“ChatGPT”一词在社交媒体上引起了热议，人们纷纷探讨它的本质和对社会的影响。就连央视新闻也对此进行了报道。作为新传专业的前沿人士，我们当然不能忽视这一热点。本文将全面解析ChatGPT，打开“技术黑箱”，探讨它对新闻与传播领域的影响。_引发对chatgpt兴趣的表述

中文字符频率统计python_用Python数据分析方法进行汉字声调频率统计分析-程序员宅基地

文章浏览阅读259次。用Python数据分析方法进行汉字声调频率统计分析木合塔尔·沙地克;布合力齐姑丽·瓦斯力【期刊名称】《电脑知识与技术》【年(卷),期】2017(013)035【摘要】该文首先用Python程序,自动获取基本汉字字符集中的所有汉字,然后用汉字拼音转换工具pypinyin把所有汉字转换成拼音,最后根据所有汉字的拼音声调,统计并可视化拼音声调的占比.【总页数】2页(13-14)【关键词】数据分析;数据可..._汉字声调频率统计

linux输出信息调试信息重定向-程序员宅基地

文章浏览阅读64次。最近在做一个android系统移植的项目，所使用的开发板com1是调试串口，就是说会有uboot和kernel的调试信息打印在com1上（ttySAC0）。因为后期要使用ttySAC0作为上层应用通信串口，所以要把所有的调试信息都给去掉。参考网上的几篇文章，自己做了如下修改，终于把调试信息重定向到ttySAC1上了，在这做下记录。参考文章有：http://blog.csdn.net/longt..._嵌入式rootfs 输出重定向到/dev/console

随便推点

uniapp 引入iconfont图标库彩色symbol教程_uniapp symbol图标-程序员宅基地

文章浏览阅读1.2k次，点赞4次，收藏12次。1，先去iconfont登录，然后选择图标加入购物车 2，点击又上角车车添加进入项目我的项目中就会出现选择的图标 3，点击下载至本地，然后解压文件夹，然后切换到uniapp打开终端运行注：要保证自己电脑有安装node(没有安装node可以去官网下载Node.js 中文网)npm i -g iconfont-tools（mac用户失败的话在前面加个sudo，password就是自己的开机密码吧）4,终端切换到上面解压的文件夹里面，运行iconfont-tools 这些可以默认也可以自己命名（我是自己命名的_uniapp symbol图标

C、C++ 对于char和char[]的理解_c++ char-程序员宅基地

文章浏览阅读1.2w次，点赞25次，收藏192次。char*和char[]都是指针，指向第一个字符所在的地址，但char*是常量的指针，char[]是指针的常量_c++ char*

Sublime Text2 使用教程-程序员宅基地

文章浏览阅读930次。代码编辑器或者文本编辑器，对于程序员来说，就像剑与战士一样，谁都想拥有一把可以随心驾驭且锋利无比的宝剑，而每一位程序员，同样会去追求最适合自己的强大、灵活的编辑器，相信你和我一样，都不会例外。我用过的编辑器不少，真不少～但却没有哪款让我特别心仪的，直到我遇到了 Sublime Text 2 ！如果说“神器”是我能给予一款软件最高的评价，那么我很乐意为它封上这么一个称号。它小巧绿色且速度非

对10个整数进行按照从小到大的顺序排序用选择法和冒泡排序_对十个数进行大小排序java-程序员宅基地

文章浏览阅读4.1k次。一、选择法这是每一个数出来跟后面所有的进行比较。2.冒泡排序法，是两个相邻的进行对比。_对十个数进行大小排序java

物联网开发笔记——使用网络调试助手连接阿里云物联网平台（基于MQTT协议）_网络调试助手连接阿里云连不上-程序员宅基地

文章浏览阅读2.9k次。物联网开发笔记——使用网络调试助手连接阿里云物联网平台（基于MQTT协议）其实作者本意是使用4G模块来实现与阿里云物联网平台的连接过程，但是由于自己用的4G模块自身的限制，使得阿里云连接总是无法建立，已经联系客服返厂检修了，于是我在此使用网络调试助手来演示如何与阿里云物联网平台建立连接。一.准备工作1.MQTT协议说明文档（3.1.1版本）2.网络调试助手（可使用域名与服务器建立连接）PS：与阿里云建立连解释，最好使用域名来完成连接过程，而不是使用IP号。这里我跟阿里云的售后工程师咨询过，表示对应_网络调试助手连接阿里云连不上

＜＜＜零基础C++速成＞＞＞_无c语言基础c++期末速成-程序员宅基地

文章浏览阅读544次，点赞5次，收藏6次。运算符与表达式任何高级程序设计语言中，表达式都是最基本的组成部分，可以说C++中的大部分语句都是由表达式构成的。_无c语言基础c++期末速成