null - 程序员宅基地

深度学习--- GAN网络原理解析-程序员宅基地

技术标签：生成对抗网络 GAN 深度学习 Machine Learning & Algorithm

Generative Adversarial Network对抗生成网络,这是当下机器视觉比较热门的一个技术,由两部分组成生成器( $G_{net}$ )和判别器( $D_{net}$ )组成

GAN区别与传统的生成网络,生成的图片还原度高,主要缘于D网络基于数据相对位置和数据本身对 $r e a l$ 数据奖励,对 $f a k e$ 数据惩罚的缘故

1.GAN思想 & 与单个传统生成器和判别器的对比

1.1GAN的思想类似于"零和博弈",百度百科这样介绍:

零和游戏的原理如下：两人对弈，总会有一个赢，一个输，如果我们把获胜计算为得1分，而输棋为-1分。则若A获胜次数为N，B的失败次数必然也为N。若A失败的次数为M，则B获胜的次数必然为M。这样，A的总分为（N-M），B的总分为（M-N），显然（N-M）+（M-N）=0，这就是零和游戏的数学表达式。

也就是奖励获胜者,惩罚失败者,在GAN中就是奖励真实图片,且惩罚伪造图片,且奖励和惩罚同时发生,当然现在说这个有点早,往后看你会慢慢的发现这就是D网络的一个反馈机制

1.2单个生成器和判别器与GAN的对比

1.2.1 生成器(Generation)

就是利用模型对图片的学习,最终达到可以自己生成图片的目的

在这里插入图片描述

就像上图表示的就是生成器的一种(还有一种变分自编码器这里不做过多的赘述)

$s t e p 1 :$ 将图片传入解码器 NN-Encoder 转化为机器可以识别的array形式,然后通过 NN-Decoder生成图片 $Pic_{fake}$

$s t e p 2 :$ 已知真实图片 $Pic_{real}$ ,通过 $l o s s$ 函数 $M S E$ ,计算真实图片和生成图片的 $l o s s$ ,进而反馈网络

这样看起来好像是没有什么问题,但是需要注意一个问题,这里的 $l o s s$ 仅仅计算数据之间的差异,图片的像素 $v a l$ 不仅仅是数据的堆叠那么简单,同样相对位置(数据之间的相关性)也是很重要的一个部分,由于G网络没有办法学习到位置的相关性

所以 $G e n e r a t i o n$ 不能生成高还原度的图片

1.2.2 判别器(Discriminator)

简单来说就是一个判断 $r e a l$ 图片和 $f a k e$ 图片的二分类模型

$\;\;\;\;\; y\in[0,1]$

Discriminator是一个卷积的神经网络,所以可以有效的区分图片的相对位置(即注重数据的相关性),但是由于Discriminator只对真实数据奖励(此时的 $o u t p u t$ 大),对伪造的数据惩罚(此时的 $o u t p u t$ 小)

所以随机数据的选取比较困难

这样对比下 G 和 D的优劣:

这样来看 G网络和 D网络各有优缺点,但是刚刚好可以互补,所以GAN网络顺势而生

2.GAN原理

2.1 Generation

由于单一G网络不能学习到数据之间的相关性,所以G网络的反向传播依赖于D网络
在这里插入图片描述
对于生成器而言,它的目的是Generation的 $o u t p u t$ 要无限接近于真实的数据分布:

这里会用到极大似然估计:

$s t e p 1 :$ 给定真实的数据分布: $P_{data}$ ,G网络 $o u t p u t : x = G (z)$ ,这里的 $z$ 是G网络的 $i n t p u t$

$s t e p 2 :$ 那么这个问题就变成一个求使G网络 $o u t p u t$ 无限接近于 $P_{data}$ 这个真实分布的 $\theta$ 的极大似然估计求解过程

这里我们用 $P(x;\theta)$ 表示G网络 $o u t p u t$ 与 $P_{data}$ 相似的概率,所以G网络就是求

$\forall \theta;\;\;\;\;\ P(x;\theta)$ 最大的过程;

下面是求解的过程:

$\theta^* = argmax\prod_{i=1}^m P_G(x^i;\theta)=argmax\sum_{i=1}^mlog(P_G(x^i;\theta))$

$\approx argmaxE_{x \sim p_{data}}[log(P_G(x^i;\theta))]$

在这里我们要构建一个 $K L - d i v e r g e n c e$ 的形式,我们都知道个 $K L - d i v e r g e n c e$ 是描述两个概率之间差异的形式,上式后面加一个 $\int_xP_{data}(x)log(P_{data}(x)dx$ ,这是一个与 $\theta$ 无关的项所以不会影响后序结果,却可以辅助构建 $K L - d i v e r g e n c e$ 形式,所以上式可以这样变形

上式 $argmax[\int_xP_{data}(x)log(P_G(x^i;\theta)) -\int_xP_{data}(x)log(P_{data}(x)dx ]$

$argmaxKL(P_G||P_{data})$

$argmniKL(P_{data}||P_G)$

这样看来G网络的计算就是求解 $argmni_GKL(P_{data}||P_G)$ ;但是 $P_G$ 的分布和 $P_{data}$ 的差异(也就是 $P_{data}和P_G$ 的 $K L - d i v e r g e n c e$ ),G网络是没有完全办法计算的(G网络不具备数据相关性的学习能力),需要用到D网络的卷积来进行有效计算 $l o s s$ ,所以接下来我们要引入D网络进行鉴别;

2.2 Discriminator

Discriminator鉴别器的机制是奖励真实样本,惩罚伪造样本,鉴别器需要获取G网络数据分布 $P_G$ 和真实数据分布 $P_{data}$

$step1: sample from P_{data} \;\;\; sample from P_G$
$s t e p 2 :$ 这样我们就获取到了 $r e a l$ 和 $f a k e$ 的数据分布,用于D网络的 $l o s s$ 计算

下面给出D网络的 $l o s s$ 函数:

$V(G,D)=E_{x\sim p_{data}}[log(D(x))] + E_{x\sim p_{G}}[log(1- D(x))]$

这里简单赘述下,上面成本函数的计算过程,后面会详细提到:

V(G,D)可以看做是一个组合的 $l o s s$ 函数

若 $x$ 是生成的数据 $x^{\sim}$ , $P_{data}(x^\sim) = 0 \;\; P_{G}(x^\sim) = 1$ ,那么:

$V(G,D)=E_{x\sim p_{G}}[log(1- D(x^\sim))]$
若 $x$ 是真实的数据 $x$ , $P_{data}(x) = 1 \;\; P_{G}(x) = 0$ ,那么:

$V(G,D)=E_{x\sim p_{data}}[log(D(x ))]$

所以实际用到的:

$V(G,D)=E_{x\sim p_{data}}[log(D(x))] + E_{x^\sim\sim p_{G}}[log(1- D(x^\sim))]$

下面是求解的过程:

正如上面所说Discriminator鉴别器的机制是奖励真实样本,惩罚伪造样本;所以D网络的训练过程就是迭代计算使得其 $l o s s$ 函数 $V (G, D)$ 最大化的过程;也就是 $a r g m a x V (D, G)$ 的过程;

为了方便计算出 $V (G, D)$ 的最大值,我们求解最优的 $D^*$ (也就是 $D (x)$ ),D网络运行阶段G网络可以看做是固定不变的;

$V(G,D)=E_{x\sim p_{data}}[log(D(x))] + E_{x\sim p_{G}}[log(1- D(x))]$

$\int_xP_{data}(x)logD(x)dx + \int_xP_G(x)log(1-D(x))dx$

$=\int_x[P_{data}(x)logD(x) + \int_xP_G(x)log(1-D(x))]dx$

令 $a=P_{data}(x) \;\;\; D = D(x) \;\;\; b = P_G(x)$

则 $V (G, D) = a l o g D + b l o g (1 - D)$

通过偏导来求上述公式的最大值:

$\frac{\partial V(G,D)}{\partial D} = \frac{a}{D} + \frac{b}{1-D} = 0$

则: $D = a / a + b$

所以 $D^* = P_{data}(x) / (P_{data}(x) + P_G(x))$ 此为使 $V (D, G)$ 最大化的最优解

代入 $V (G, D)$

上式 $V(G,D^*)$

$Ex\sim p_{data}[log\frac{P_{data}(x)}{P_{data}(x) + P_G(x)}] + Ex\sim p_{G}[log\frac{P_{G}(x)}{P_{data}(x) + P_G(x)}]$

$\int_xP_{data}(x)log\frac{P_{data}(x)}{P_{data}(x) + P_G(x)}dx + \int_xP_{G}(x)log\frac{P_{G}(x)}{P_{data}(x) + P_G(x)}dx$

$\int_xP_{data}(x)log\frac{P_{data}(x)}{\frac{P_{data}(x) + P_G(x)}{2}} * \frac{1}{2}dx + \int_xP_{G}(x)log\frac{P_{G}(x)}{\frac{P_{data}(x) + P_G(x)}{2}}* \frac{1}{2}dx$

$\int_xP_{data}(x)log\frac{P_{data}(x)}{\frac{P_{data}(x) + P_G(x)}{2}}dx + \int_xP_{G}(x)log\frac{P_{G}(x)}{\frac{P_{data}(x) + P_G(x)}{2}}dx$

这里需要提到J一个知识点:

$J S D d i v e r g e n c e$ 是 $K L d i v e r g e n c e$ 的对称平滑版本，表示了两个分布之间的差异,上式没有办法转化为 $K L - d i v e r g e n c e$ .所以这里我们使用 $J S D$
$J S D$ 公式: $\frac{1}{2}D(P||M) + \frac{1}{2}D(Q||M)$ $\frac{1}{2}(P+Q)$

上式 $KL(P_{data}(x)||\frac{P_{data}(x) + P_G(x)}{2}) + KL(P_{G}(x)||\frac{P_{data}(x) + P_G(x)}{2})$

$= - 2 l o g 2 + 2 J S D (P ∣ ∣ Q)$

在数学中可以证明(这里不详细赘述), $JSD_{max} = log2$

所以 $V (G, D)$ 最大值是0,最小值是 $- 2 l o g 2$ ;也就是说 $J S D$ 越大P和Q的差异越大, $J S D$ 越小P和Q的差异就越小

所以D网络最优的场景应当是:

$max_D(G,D)$ 最小的情况,此时 $P_G = P_{data}$ 也就是生成数据完全与真实数据相等

综上来看,GAN就是 $\theta_G,\;\theta_D = argmin_Gmax_DV(G,D)$ 的过程

3.GAN训练过程

在这里插入图片描述

这就是 GAN的整个训练过程,蓝色框是D网络的训练过程,红色框是G网络的训练过程

这里我们会注意到:

D的 $l o s s$ 迭代过程中要趋向于最大,所以 $\theta_d = \theta_d + \eta \nabla loss$ ;
G的 $l o s s$ 迭代过程中要趋向于最小,所以 $\theta_d = \theta_d - \eta \nabla loss$ ;
可以看出来一般情况下D网络每迭代多次,G网络仅迭代一次;主要原因G,D的反馈传播均依赖于D网络,G网络迭代一次,会让D网络的 $l o s s$ 较之前下降,所以D网络要调节多次使得D网络的 $l o s s$ 尽可能的大;
D的 $l o s s$ 可以看做对D网络而言分辨 $r e a l$ 数据和 $f a k e$ 数据的损失,所以要最大化真实数据的期望 $l o g D (x)$ ,同时最小化生成数据期望 $logD(x^\sim)$ ,也就是最大化 $log(1-D(x^\sim))$ ,而 $loss_D = E_{x\sim p_{data}}[log(D(x))] + E_{x^\sim\sim p_{G}}[log(1- D(x^\sim))]$ ,所以D的期望是最大化 $l o s s$
而G网络的 $loss_G = E_{x^\sim\sim p_{G}}[log(1- D(x^\sim))]$ ,G网络的输入是没有 $P_{data}$ 作为 $i n p u t$ ,所以G网络仅保留V的后半部分,也可以看做一个类别的二分类器.是计算生成图片与目标图片的距离;所以越小越好

4.GAN的优化

我们先来看下G网络loss的图像:
在这里插入图片描述
可以看到原始的G网络的 $l o s s = l o g (1 - D (x))$ ,首先我们知道我们初始化一般从0开始,而这个 $l o s s$ 在0附近梯度较小,从0->1,梯度越来越大;这显然不符合我们的习惯,我们期望的模型迭代应当是初期梯度较大,随着 $e p o c h$ 的增加梯度越来越小,这样有利于函数的收敛

所以我们可以把G网络的 $l o s s$ 函数转化为 $- l o g (D (x))$

以上是GAN基础学习中的一些感悟和整理,感谢阅读

本文链接：https://blog.csdn.net/soullines/article/details/102593950

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

分布式光纤传感器的全球与中国市场2022-2028年：技术、参与者、趋势、市场规模及占有率研究报告_预计2026年中国分布式传感器市场规模有多大-程序员宅基地

文章浏览阅读3.2k次。本文研究全球与中国市场分布式光纤传感器的发展现状及未来发展趋势，分别从生产和消费的角度分析分布式光纤传感器的主要生产地区、主要消费地区以及主要的生产商。重点分析全球与中国市场的主要厂商产品特点、产品规格、不同规格产品的价格、产量、产值及全球和中国市场主要生产商的市场份额。主要生产商包括：FISO TechnologiesBrugg KabelSensor HighwayOmnisensAFL GlobalQinetiQ GroupLockheed MartinOSENSA Innovati_预计2026年中国分布式传感器市场规模有多大

07_08 常用组合逻辑电路结构——为IC设计的延时估计铺垫_基4布斯算法代码-程序员宅基地

文章浏览阅读1.1k次，点赞2次，收藏12次。常用组合逻辑电路结构——为IC设计的延时估计铺垫学习目的：估计模块间的delay，确保写的代码的timing 综合能给到多少HZ，以满足需求！_基4布斯算法代码

OpenAI Manager助手（基于SpringBoot和Vue）_chatgpt网页版-程序员宅基地

文章浏览阅读3.3k次，点赞3次，收藏5次。OpenAI Manager助手（基于SpringBoot和Vue）_chatgpt网页版

关于美国计算机奥赛USACO，你想知道的都在这_usaco可以多次提交吗-程序员宅基地

文章浏览阅读2.2k次。USACO自1992年举办，到目前为止已经举办了27届，目的是为了帮助美国信息学国家队选拔IOI的队员，目前逐渐发展为全球热门的线上赛事，成为美国大学申请条件下，含金量相当高的官方竞赛。USACO的比赛成绩可以助力计算机专业留学，越来越多的学生进入了康奈尔，麻省理工，普林斯顿，哈佛和耶鲁等大学，这些同学的共同点是他们都参加了美国计算机科学竞赛（USACO)，并且取得过非常好的成绩。适合参赛人群USACO适合国内在读学生有意向申请美国大学的或者想锻炼自己编程能力的同学，高三学生也可以参加12月的第_usaco可以多次提交吗

MySQL存储过程和自定义函数_mysql自定义函数和存储过程-程序员宅基地

文章浏览阅读394次。1.1 存储程序1.2 创建存储过程1.3 创建自定义函数1.3.1 示例1.4 自定义函数和存储过程的区别1.5 变量的使用1.6 定义条件和处理程序1.6.1 定义条件1.6.1.1 示例1.6.2 定义处理程序1.6.2.1 示例1.7 光标的使用1.7.1 声明光标1.7.2 打开光标1.7.3 使用光标1.7.4 关闭光标1.8 流程控制的使用1.8.1 IF语句1.8.2 CASE语句1.8.3 LOOP语句1.8.4 LEAVE语句1.8.5 ITERATE语句1.8.6 REPEAT语句。_mysql自定义函数和存储过程

半导体基础知识与PN结_本征半导体电流为0-程序员宅基地

文章浏览阅读188次。半导体二极管——集成电路最小组成单元。_本征半导体电流为0

随便推点

【Unity3d Shader】水面和岩浆效果_unity 岩浆shader-程序员宅基地

文章浏览阅读2.8k次，点赞3次，收藏18次。游戏水面特效实现方式太多。咱们这边介绍的是一最简单的UV动画（无顶点位移），整个mesh由4个顶点构成。实现了水面效果（左图），不动代码稍微修改下参数和贴图可以实现岩浆效果（右图）。有要思路是1，uv按时间去做正弦波移动2，在1的基础上加个凹凸图混合uv3，在1、2的基础上加个水流方向4，加上对雾效的支持，如没必要请自行删除雾效代码(把包含fog的几行代码删除)S..._unity 岩浆shader

广义线性模型——Logistic回归模型（1）_广义线性回归模型-程序员宅基地

文章浏览阅读5k次。广义线性模型是线性模型的扩展，它通过连接函数建立响应变量的数学期望值与线性组合的预测变量之间的关系。广义线性模型拟合的形式为：其中g(μY)是条件均值的函数（称为连接函数）。另外，你可放松Y为正态分布的假设，改为Y 服从指数分布族中的一种分布即可。设定好连接函数和概率分布后，便可以通过最大似然估计的多次迭代推导出各参数值。在大部分情况下，线性模型就可以通过一系列连续型或类别型预测变量来预测正态分布的响应变量的工作。但是，有时候我们要进行非正态因变量的分析，例如：（1）类别型.._广义线性回归模型

HTML+CSS大作业环境网页设计与实现(垃圾分类) web前端开发技术 web课程设计网页规划与设计_垃圾分类网页设计目标怎么写-程序员宅基地

文章浏览阅读69次。环境保护、保护地球、校园环保、垃圾分类、绿色家园、等网站的设计与制作。总结了一些学生网页制作的经验：一般的网页需要融入以下知识点：div+css布局、浮动、定位、高级css、表格、表单及验证、js轮播图、音频视频 Flash的应用、ul li、下拉导航栏、鼠标划过效果等知识点，网页的风格主题也很全面：如爱好、风景、校园、美食、动漫、游戏、咖啡、音乐、家乡、电影、名人、商城以及个人主页等主题，学生、新手可参考下方页面的布局和设计和HTML源码（有用点赞△）一套A+的网_垃圾分类网页设计目标怎么写

C# .Net 发布后,把dll全部放在一个文件夹中,让软件目录更整洁_.net dll 全局目录-程序员宅基地

文章浏览阅读614次，点赞7次，收藏11次。之前找到一个修改 exe 中 DLL地址的方法, 不太好使,虽然能正确启动, 但无法改变 exe 的工作目录,这就影响了.Net 中很多获取 exe 执行目录来拼接的地址 ( 相对路径 ),比如 wwwroot 和代码中相对目录还有一些复制到目录的普通文件等等,它们的地址都会指向原来 exe 的目录, 而不是自定义的 “lib” 目录,根本原因就是没有修改 exe 的工作目录这次来搞一个启动程序,把 .net 的所有东西都放在一个文件夹,在文件夹同级的目录制作一个 exe._.net dll 全局目录

BRIEF特征点描述算法_breif description calculation 特征点-程序员宅基地

文章浏览阅读1.5k次。本文为转载，原博客地址：http://blog.csdn.net/hujingshuang/article/details/46910259简介 BRIEF是2010年的一篇名为《BRIEF:Binary Robust Independent Elementary Features》的文章中提出，BRIEF是对已检测到的特征点进行描述，它是一种二进制编码的描述子，摈弃了利用区域灰度..._breif description calculation 特征点

房屋租赁管理系统的设计和实现，SpringBoot计算机毕业设计论文_基于spring boot的房屋租赁系统论文-程序员宅基地

文章浏览阅读4.1k次，点赞21次，收藏79次。本文是《基于SpringBoot的房屋租赁管理系统》的配套原创说明文档，可以给应届毕业生提供格式撰写参考，也可以给开发类似系统的朋友们提供功能业务设计思路。_基于spring boot的房屋租赁系统论文