深入理解NLP中LayerNorm的原理以及LN的代码详解-程序员宅基地

技术标签: 知识点理解  大厂算法岗求职攻略  机器学习  LayerNorm  自然语言处理  

深入理解NLP中LayerNorm的原理以及LN的代码详解

在介绍LayerNorm之前,我们先来思考一下,为什么NLP中要引入LayerNorm?

如果你学过一点深度学习,那么应该多多少少听过BatchNorm这个东西。BN简单来说就是对一批样本按照每个特征维度进行归一化。BN具体细节请看我的另一篇博客:深入理解BatchNorm的原理

以下图为例演示下BatchNorm的过程,我们会对R个样本的“成绩”这个特征维度做归一化。
在这里插入图片描述

但在NLP领域,每个样本通常是一个句子,而句子中包含若干个单词。这时如果使用BN去做过归一化通常效果会很差。

在这里插入图片描述

那有没有更好的归一化方法呢?

有的,我们今天就来看一看NLP中常用的归一化操作:LayerNorm

LayerNorm原理

在NLP中,大多数情况下大家都是用LN(LayerNorm)而不是BN(BatchNorm)。最直接的原因是BN在NLP中效果很差,所以一般不用。</

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_43827595/article/details/121877901

智能推荐

c# 大批量数据导出到excel (使用System.IO导出)_system.io.packaging 生成excel-程序员宅基地

文章浏览阅读6.1k次。预备知识:关于excelworkbook:工作簿,每一个xls或xlsx相当于一个工作簿。 sheet:工作表,每个工作簿可以有多个工作表。工作表相当于一张纸,工作簿相当于一个本子,将过个工作表集合在一起。 row:行 column:列 cell:单元格(表格中的最小单位,接下来导出表格就是对cell进行操作) 将DataTable中的大量数据导出到Excel表格中。但每张E..._system.io.packaging 生成excel

推荐 :利用Auto ARIMA构建高性能时间序列模型(附Python和R代码)-程序员宅基地

文章浏览阅读3.6k次,点赞3次,收藏25次。作者:AISHWARYA SINGH;翻译:陈之炎;校对:丁楠雅本文共3400字,建议阅读10+分钟。本文介绍了ARIMA的概念,并带你用Python和R训练一个数据集实..._python中auto-arima

TCP三次握手与四次挥手_tcp的3次握手和4次挥手-程序员宅基地

文章浏览阅读1.4k次。Tcp三次握手与四次挥手,自己的见解_tcp的3次握手和4次挥手

自然语言处理核心期刊_中国中文信息学会-程序员宅基地

文章浏览阅读467次。全国第十六届计算语言学会议(CCL 2017)及第五届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD 2017)联合征稿启事2017-03-20“第十六届全国计算语言学学术会议”(The Sixteenth China National Conference on Computational Linguistics, CCL 2017)将于2017年10月13日—15日在南京师范..._ccl是中文核心吗

html中的li标签不换行,css li 不换行(布局,内容)-程序员宅基地

文章浏览阅读3k次。参考这里------不换行的策略:不换行原理:ul 和 li 默认都是 display:block; 的标签,可以通过2种方式实现 li 的 不换行显示:* 将 li 设为 display:inline; ,然后通过 marging 和 padding 设置 li 的间距,* 将 li 设为 float:left; ,然后通过 ( margin & padding ) 设置 li 的间距,...

随便推点

Android中轮播图的实现_安卓轮播图-程序员宅基地

文章浏览阅读502次。—————–纯粹图片的轮播图——————–导包 //banner广告轮播图 compile 'com.youth.banner:banner:1.4.9'布局中使用

北京口袋时尚科技公司-微店内推技术一面-程序员宅基地

文章浏览阅读185次。今天下午预约的面试,如期到来,回顾一下面试的过程.1.简单的自我介绍2.开始面试(看简历问),一面一般是压力面试,我简历上写的可以开发手机游戏(Cocos2d-x),他就问知道Dijkstra算法吗,面试时面试官说他电话有问题(确实信号不信),但面试官很nice,我一时没听清,就说不知道,以前写过单源最短路径的题。3.看了我研究过安全与劫持,他就问内核态和用户态的转化过程,感觉答的不是..._北京口袋时尚科技有限公司的微店

2020年末知识大总结:Java程序员转Android开发必读经验一份,嵌入式开发入门教程_软件开发转移动端开发需要学什么-程序员宅基地

文章浏览阅读815次。Android是主流智能手机的操作系统,Java是一种开发语言,两者没有好坏优劣之分,只是两种职业岗位的选择。学安卓从事移动互联方向开发,学Java从事软件、网站开发。而安卓上的应用大多是Java编写的,所以建议在安卓前期的Java学习阶段中,要用心学好。言简意赅的说说“转”前的准备:其实Java程序员要自学安卓开发的基础知识还是没有什么难度的,毕竟语言相通,特性相似, 阅读安卓源代码的门槛以比较低一些,作为能够考虑“转”的合格的程序员的你,自学能力和相关的基础知识应该不是问题,学习安卓也相对比较轻松._软件开发转移动端开发需要学什么

Stm32CubeIDE设置补全快捷键和主题_cubeide快捷键设置-程序员宅基地

文章浏览阅读8.2k次,点赞8次,收藏32次。Stm32CubeIDE设置补全快捷键和主题stm32CubeIde的设置,省的自己忘记了。一、主题设置提示:这里可以添加要学的内容例如:1、 help->Eclipse Market->输入"Devstyle"查找主题插件->install安装2、窗口->首选项 找到主题3、按照如下设置完成后会提示重启,重启后效果如下所示二、补全设置用于设置代码的自动补全搜索: key->content assist默认的补全快捷键时alt+/,这里我改成双击两次_cubeide快捷键设置

【QBKbupt】洛谷P2525Uim的情人节礼物·其之壱-程序员宅基地

文章浏览阅读142次。(题目链接:https://www.luogu.com.cn/problem/P2525)#include<bits/stdc++.h>using namespace std;int main(){ int tmp,pos,s,n,number,symbol=1,input[10],data[10],memory[10]; scanf("%d",&n); for(int i=1;i<=n;i++) { scanf("%d",&input[i]);

CSS入门|空余空间、换行和省略-程序员宅基地

文章浏览阅读241次,点赞3次,收藏7次。text-overflow:ellipsis(省略号);(如果用clip(裁剪),就没有三个点)nowrap 文本不换行,直到遇到标签【最常用】pre 预格式化文本-保留空格,tab,回车。pre-line 显示回车,不显示换行,空格。做出多的文本省略、显示三个点的效果——容器宽度:width:200px;White-space空余空间。pre-wrap 自然换行。

推荐文章

热门文章

相关标签