【论文精读】Hi-Transformer 层次化和交互化的长文档建模-程序员宅基地

技术标签: 自然语言处理  

论文链接:​​​​​​https://aclanthology.org/2021.acl-short.107.pdf

Hi-Transformer: Hierarchical Interactive Transformer for Efficient and  Effective Long Document Modeling

Abstract

因为输入文本长度的复杂性,Transformer难以处理长文档。

为此,提出一种分层交互式的HI-Transformer模型对长文档进行建模

Model

 整体架构如图所示

首先经过sentence Transformer来学习每个句子的语义表示;然后结合句子的位置信息,经过Document Transformer,得到对整个文档建模的句子语义信息和Document context-aware的句子表示;然后经过sentence Transformer来增强全局上下文句子建模,得到Global contenxt-aware sentence embedding;最后经过池化(pooling)得到document embedding。 

Experiments

Datasets

 three benchmark document modeling datasets:

The first one is Amazon Electronics (He and McAuley, 2016)(denoted as Amazon), which is for product review rating prediction.

The second one is IMDB (Diao et al., 2014), a widely used dataset for movie re-view rating prediction.

 The third one is the MIND dataset (Wu et al., 2020c), which is a large-scale dataset for news intelligence.

 

此外还研究了文本长度对模型性能和计算成本的影响,对比Transformer和Hi-Transformer

 

 实验证明HI-Transformer效果更好,对长序列的性能更好。


版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/elf1110/article/details/123881145

智能推荐

修改树莓派交换分区 SWAP 的正确姿势_树莓派派 failed to activate swap /swapfile-程序员宅基地

文章浏览阅读2.5k次,点赞2次,收藏6次。树莓派实验室按:Swap分区是磁盘上的一个特殊用途的分区。是当系统的物理内存不够用的时候,把物理内存中的一部分空间释放出来,以供当前运行的程序使用。那些被释放的空间可能来自一些很长时间没有什么操作的程序,这些被释放的空间被临时保存到Swap分区中,等到那些程序要运行时,再从Swap分区中恢复保存的数据到内存中。分配太多的Swap空间,会浪费磁盘空间,而Swap空间太少,则系统会发生错误。一般在内存..._树莓派派 failed to activate swap /swapfile

悟懂Linux学习笔记第11章资源监控②vmstat-程序员宅基地

文章浏览阅读1.4k次,点赞3次,收藏3次。解决办法: 当发生以上问题的时候请先调整应用程序对 CPU 的占用情况.使得应用程序能够更有效的使用 CPU.同时可以考虑增加更多的 CPU. 关于 CPU 的使用情况还可以结合 mpstat, ps aux top prstat –a 等等一些相应的命令来综合考虑关于具体的CPU的使用情况,和那些进程在占用大量的CPU时间.一般情况下,应用程序的问题会比较大一些.比如一些 SQL 语句不合理等等都会造成这样的现象.还有就是收银员的速度了,如果碰上了连钱都点不清楚的新手,那就有的 等了。_悟懂linux学习笔记第11章资源监控②vmstat

Nginx_nginx kic-程序员宅基地

文章浏览阅读110次。Nginx一、Nginx介绍1.什么是Nginx2.Nginx优点二、应用场景三、Nginx安装1.安装环境配置①因为Nginx是C语言编写的,所以需要配置C语言编译环境 (一定要在联网状态下安装)②第三方的开发包, 在编译之前需要安装这些第三方包2.安装Nginx 步骤3.启动并访问 Nginx四、配置虚拟主机1.通过端口区分不同的虚拟主机2.通过域名区分不同的虚拟主机①什么是域名②域名级别③域名绑定④配置域名映射⑤配置nginx.conf五、反向代理1.什么是代理2.正向代理3.反向代理4.Nginx实_nginx kic

php ajax操作成功刷新页面,Ajax+php数据交互并且局部刷新页面的实现详解-程序员宅基地

文章浏览阅读83次。什么是Ajax?国内翻译常为“阿贾克斯”和阿贾克斯足球队同音,AJAX 是一种用于创建快速动态网页的技术,他不是新语言,而是一种使用现有标准的新方法。通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新,这样就可以在不重新加载整个网页的情况下,对网页的某部分进行更新。XMLHttpRequest 是 AJAX 的基础,用于和服务器交换数据。所有现代浏览器均支持 XMLHttpReq..._php ajax刷新页面

自定义el-select多选下拉框,添加搜索全选等功能,解决搜索无数据时搜索框消失问题_el-select下拉框新增搜索input-程序员宅基地

文章浏览阅读508次。在自定义多选可搜索下拉框的时候,当搜索无匹配数据的时候,下拉框内自定义的搜索框等元素都会消失,该组件完美地解决了这个问题!特此记录一下。_el-select下拉框新增搜索input

I2C介绍及verilog实现(主机/从机可综合)_i2c怎么实现主机和从机一体-程序员宅基地

文章浏览阅读2.1w次,点赞37次,收藏290次。I2C介绍及verilog实现(主机/从机)一、简介:I2C是一种只有2条线的串行通信协议。可用于IC内部通信,也可以用于IC间的通信,广泛用于开关电源、触控芯片、简单的显示芯片等。基本特征:2条通信线,SDA数据线,SCL时钟线。 串行的8-bit双向数据传输,速率分为: a.低速模式/标准模式(standard-mode),100 kbit/s; b.快速模式(fast-mode),400 kbit/s; c.加强快速模式(Fast-mode..._i2c怎么实现主机和从机一体

随便推点

React全家桶项目搭建-程序员宅基地

文章浏览阅读84次。React全家桶项目搭建

Java 开发 (实习生/应届生) 完整学习路线和规划,希望能够帮到屏幕前迷茫的你_java实习计划-程序员宅基地

文章浏览阅读7.7k次,点赞75次,收藏280次。这是来自一个没有团队,没有机构,仅仅是一个热爱Java开发的带学生UP主完成的学习路线,所有的资料、源码可以直接下载。各位小伙伴大家好,也许这是你们第一次见到我,我和你一样,曾也是一个对于未来充满迷茫的带学生,也许你现在正在担心Java开发这条路能否是自己最终的归宿,不知道自己是否能够在这条路上走得更远,作为一个过来人,我可以很明确的告诉你,Java的学习并不难,它需要的只是你的热情和坚持而已,不要犹豫,行动起来,希望各位能够在秋招/春招找到自己满意的工作。......_java实习计划

一文详解|老阳分享的Temu电商项目赚钱容易吗?-程序员宅基地

文章浏览阅读305次,点赞2次,收藏2次。同时,全托管模式为商家提供了全方位的运营支持和售后服务,降低了商家的运营成本和风险。老阳分享的项目信息,为我们提供了宝贵的经验和指导,但真正的成功还需靠个人的运营能力和市场洞察力。综上所述,老阳分享的Temu电商项目赚钱并不容易,但只要商家具备足够的运营能力和市场洞察力,结合Temu项目的优势,完全有可能在这个平台上取得成功。在当今跨境电商风起云涌的时代,Temu作为拼多多推出的跨境电商平台,引起了广泛关注。此外,售后服务和物流配送也是不可忽视的环节,它们直接影响着消费者的购物体验和商家的口碑。

FOJ2013-最大子段和-程序员宅基地

文章浏览阅读861次。FOJ2013限定子段长度最短为m,,贴个我的超时代码Time Limit Exceed 哈哈方法和 hdu1003 一样#include#includeusing namespace std;int num[1000001],n,m;int getn(int x){ int i,ret=0; for(i=x;i>x-m;i--) ret+=n_foj2013

html表格数据按自定义公式自动计算,Word表格中进行数据自动计算教程-程序员宅基地

文章浏览阅读2.6k次。方法一:直接输入域代码将插入点置于要存放结果的单元格中,按CTRL+F9插入域标识“{}”(注意:不能直接用键盘输入),在里面输入由“=”、函数、数值和单元格名称所组成的公式,然后在其上单击右键,选择“切换域代码”即可显示公式所计算的结果。方法二:“插入”→“域…”→“公式…”可以通过“插入”→“域…”,保持默认的域名选项,单击右侧的“公式…”按钮,同样也会出现“公式”对话框。方法三:利用“表格”..._html input 表格怎么设置计算公式

基于MPC的分布式驱动电动汽车变道轨迹跟踪控制及转矩分配的仿真效果分析-程序员宅基地

文章浏览阅读124次。通过联合使用Carsim和Matlab,我们能够精确地建立车辆模型,并实现有效的轨迹跟踪控制。在仿真过程中,我们设置了不同的环境条件和车辆参数,并评估了该方法在各种情况下的性能表现。通过这种分布式控制模型,我们能够实现多辆电动汽车之间的协同变道,以及良好的轨迹跟踪性能。MPC算法能够根据车辆的动态模型,预测未来一段时间内的车辆状态,并计算出最优的控制输入。在变道轨迹跟踪控制中,我们通过优化转向角、转矩分配等参数,使得车辆能够顺利变道,并且轨迹跟踪误差最小化。