7.3 NLP中的常用预训练模型_xlm-roberta-large-程序员宅基地

技术标签: 深度学习NLP  nlp  深度学习  人工智能  pytorch  自然语言处理  

3 NLP中的常用预训练模型


  • 学习目标:

    • 了解当下NLP中流行的预训练模型.

    • 掌握如何加载和使用预训练模型.


  • 2.3.1 当下NLP中流行的预训练模型:

    • BERT

    • GPT

    • GPT-2

    • Transformer-XL

    • XLNet

    • XLM

    • RoBERTa

    • DistilBERT

    • ALBERT

    • T5

    • XLM-RoBERTa


  • 2.3.2 BERT及其变体:

    • bert-base-uncased: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共110M参数量, 在小写的英文文本上进行训练而得到.

    • bert-large-uncased: 编码器具有24个隐层, 输出1024维张量, 16个自注意力头, 共340M参数量, 在小写的英文文本上进行训练而得到.

    • bert-base-cased: 编码器具有24个隐层, 输出1024维张量, 16个自注意力头, 共340M参数量, 在不区分大小写的英文文本上进行训练而得到.

    • bert-large-cased: 编码器具有24个隐层, 输出1024维张量, 16个自注意力头, 共340M参数量, 在不区分大小写的英文文本上进行训练而得到.

    • bert-base-multilingual-uncased: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共110M参数量, 在小写的102种语言文本上进行训练而得到.

    • bert-large-multilingual-uncased: 编码器具有24个隐层, 输出1024维张量, 16个自注意力头, 共340M参数量, 在不区分大小写的102种语言文本上进行训练而得到.

    • bert-base-chinese: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共110M参数量, 在简体和繁体中文文本上进行训练而得到.


  • 2.3.3 GPT:

    • openai-gpt: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共110M参数量, 由OpenAI在英文语料上进行训练而得到.


  • 2.3.4 GPT-2及其变体:

    • gpt2: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共117M参数量, 在OpenAI GPT-2英文语料上进行训练而得到.

    • gpt2-xl: 编码器具有48个隐层, 输出1600维张量, 25个自注意力头, 共1558M参数量, 在大型的OpenAI GPT-2英文语料上进行训练而得到.


  • 2.3.5 Transformer-XL:

    • transfo-xl-wt103: 编码器具有18个隐层, 输出1024维张量, 16个自注意力头, 共257M参数量, 在wikitext-103英文语料进行训练而得到.


  • 2.3.6 XLNet及其变体:

    • xlnet-base-cased: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共110M参数量, 在英文语料上进行训练而得到.

    • xlnet-large-cased: 编码器具有24个隐层, 输出1024维张量, 16个自注意力头, 共240参数量, 在英文语料上进行训练而得到.


  • 2.3.7 XLM:

    • xlm-mlm-en-2048: 编码器具有12个隐层, 输出2048维张量, 16个自注意力头, 在英文文本上进行训练而得到.


  • 2.3.8 RoBERTa及其变体:

    • roberta-base: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共125M参数量, 在英文文本上进行训练而得到.

    • roberta-large: 编码器具有24个隐层, 输出1024维张量, 16个自注意力头, 共355M参数量, 在英文文本上进

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/m0_47880481/article/details/106198853

智能推荐

python3调用基于hessian协议的接口(亲测有效)_import hessianproxy-程序员宅基地

文章浏览阅读4.5k次,点赞2次,收藏7次。 Hessian是一个轻量级的RPC框架,它基于HTTP协议传输,使用Hessian二进制序列化,对于数据包比较大的情况比较友好。但是它的参数和返回值都需要实现Serializable接口。Hessian的最大优势在于跨平台,多语言支持和比较合理的性能,目前‍Hessian支持,如Java、Flash/Flex、Python、C++、.NET C#、D、Erlang、PHP、Rubby..._import hessianproxy

时序分析基本概念介绍<Delay Corner>-程序员宅基地

文章浏览阅读2.7k次。今天给大家介绍的时序分析概念是Delay Corner,全称延时端角。这是MMMC分析中的"C"的概念。一个delay corner由一种library set和一个rc..._delay_corner

Tp-link路由器怎么设置端口映射 内网端口映射_tplink内网访问映射-程序员宅基地

文章浏览阅读8.7k次。本地路由器端口映射方法端口映射是NAT的一种,功能是把在公网的地址转翻译成私有地址。可以把自己电脑当作服务器来建站使用,但是在这之前就需要用到端口映射,让外网的人可以访问到你的电脑。工具/原料路由器一个,我用的是小米路由器电脑一台方法/步骤1先找到自己电脑连接路由的IP地址(最好在路由器中设置DHCP静态IP,不然关机后可能你的内网地址会变化),电脑左下角,开始--输入cmd--回车进入cmd界面..._tplink内网访问映射

vue-lazyload 懒加载 动态切换图片问题_图片懒加载 切换数据时图片无法替换-程序员宅基地

文章浏览阅读1.1k次。使用 vue-lazyload 当需要动态切换图片时,DOM绑定的图片不会变。在查阅了资料后,原来需要绑定一个 key,遂加之则图片就可以动态切换了。<img v-lazy="ImgSrc" :key="ImgSrc">该博客参考转载于vue-lazyload 动态切换图片问题..._图片懒加载 切换数据时图片无法替换

Mac下使用自带终端SSH功能_mac ssh vi-程序员宅基地

文章浏览阅读3.4w次,点赞4次,收藏11次。1. 建立远程连接1.1 打开终端,建立远程连接1.2 加入新的远程连接1.3 输入正确的IP,然后输入密码即可连接———这是一条优雅的分割线————— 注意:可能有人好奇我的IP怎么是字符串的,是因为我在ssh的配置文件中做了映射配置,具体如下2. 连接设置别名使用vi命令编辑一下~/.ssh/config这个文件(如果目录下没有这个文件,可以新建一个),接着按下面格式添加内容:host s_mac ssh vi

usb的bulk传输_usb bulk传输-程序员宅基地

文章浏览阅读2.4w次,点赞8次,收藏35次。网上看到的一些论坛:http://bbs.21ic.com/icview-334294-1-1.html 里面有讨论bulk endpoint是可选择的。当USB设备需要传输大量数据的时候,bulk传输可以作为一个好的选择。例如,传输文件到闪存设备,或者扫描仪,打印机的数据收发。USB的full speed,high speed,和super speed设备可以支持bulk endp_usb bulk传输

随便推点

PowerShell : 无法加载文件 C:\Users\huyn\AppData\Roaming\npm\ng.ps1,因为在此系统上禁止运行脚本_cnpm : 无法加载文件 c:\users\pc\appdata\roaming\npm\cnpm-程序员宅基地

文章浏览阅读2.8w次,点赞39次,收藏51次。1、搜索powershell,右键以管理员身份运行2、若要在本地计算机上运行您编写的未签名脚本和来自其他用户的签名脚本,请使用以下命令将计算机上的 执行策略更改为 RemoteSigned执行:set-ExecutionPolicy RemoteSigned3、查看执行策略:get-ExecutionPolicy..._cnpm : 无法加载文件 c:\users\pc\appdata\roaming\npm\cnpm.ps1,因为在此系统上

FFMPEG多线程并发解码的效率测试_ffmpeg高并发-程序员宅基地

文章浏览阅读1w次,点赞2次,收藏10次。FFMPEG为了提高解码速度,可以使用多线程并发解码,分为线程级并发解码和片级并发编程。并发解码需要解决多帧依赖问题。如同时对I帧和P帧解码,P帧依赖于I帧,怎么办?FFMPEG采用算法如下:1.每个线程在解码完一行宏块后,更新解码高度H12.B/P帧解码宏块时,需要把待解码宏块H2与H1比较,H2>=H1,线程阻塞等待。3.每个线程更新解码高度是,阻塞线程会被唤醒比较高度。..._ffmpeg高并发

14张python最全面试考点与知识点总结思维导图_用思维导图形描述python语言的特点-程序员宅基地

文章浏览阅读7.9k次,点赞14次,收藏113次。Python爬虫人工智能教程:www.python88.cn编程资源网:www.python66.cn相关资料和一些python教程都传到Python社区网站:www.python88.cn有兴趣的同学可以加群下载,本文只限于技术交流,请勿用于商业用途,公众号回复:思维导图。获取资料推荐阅读 500GB p..._用思维导图形描述python语言的特点

SwiftUI 完整天气App之支持网络请求数据和CoreData存储(项目含源码)_swiftui 网络请求-程序员宅基地

文章浏览阅读500次。实战需求SwiftUI 完整天气App之支持网络请求数据和CoreData存储(项目含源码)本文价值与收获看完本文后,您将能够作出下面的界面看完本文您将掌握的技能获取当前位置上次搜索和温度单位的用户默认设置可自定义错误消息关闭键盘定制的加载视图使用CoreData的TextField搜索历史记录基础知识SwiftUI 快速使用SF图标实现enum字符串调用import Foundationimport SwiftUI// 调用方式SFSymbols.xmark_swiftui 网络请求

信息隐藏——LSB隐写分析_lsb隐写检测-程序员宅基地

文章浏览阅读8.1k次,点赞8次,收藏46次。LSB隐写分析【实验目的】:了解并实现常见的LSB隐写分析法。【实验内容】:■实现针对LSB隐写的卡方隐写分析算法,并分析其性能。■实现针对LSB隐写的RS隐写分析算法,并分析其性能。1.卡方隐写分析算法主要针对图像所有像素点的LSB全嵌入情况;利用数理统计假设检验中的卡方检验模型来分析。设图像中灰度值为j的象素数为hj,其中0≤j≤255。如果载体图像未经隐写,h2i和h2i+1的值会相差很大。秘密信息在嵌入之前往往经过加密,可以看作是0、1 随机分布的比特流,而且值为0与1的可能性都是1_lsb隐写检测

EasyDarwin开源流媒体服务器Golang版本:服务端录像功能发布_golang录像-程序员宅基地

文章浏览阅读5.4k次。EasyDarwin开源流媒体服务器(www.easydarwin.org)现在使用Go版本实现了。最新的代码提交,已经支持了推流(或者拉流)的同时进行本地存储。本地存储的原理,是在推流的同时启动ffmpeg作为一路Client来做存储。ffmpeg在demux和mux的工作方面已经十分成熟,我们没必要再重复发明轮子。因此这种做法十分取巧而且简单有效,也不会侵入原来的代码架构。如下图所示:R..._golang录像

推荐文章

热门文章

相关标签