清华论文CH-SIMS: A Chinese Multimodal Sentiment Analysis Dataset with Fine-grained Annotations of Modali_Neo的战斗部的博客-程序员宅基地

技术标签: AI算法  自然语言处理  

CH-SIMS: A Chinese Multimodal Sentiment Analysis Dataset with Fine-grained Annotations of Modality

创新点

1. 提出了一种数据集,可以同时去做单模态分类,多模态分类以及多任务分类。
2. 提出了一种多模态多任务的后端融合的框架,在这个框架下进行多模态训练会使得测试结果更高。

论文细节

单模态和多模态的标签是分开的

对每一段语音,文本,视频都叫五个人去打标签,每个人打的标签只有三种,
1是积极的,0中性的,-1消极的
然后对这五个人打的标签的成绩进行平均,
最后分为五类积极的{0.8, 1.0},弱积极{0.2, 0.4, 0.6},中性{0.0}, 弱消极{-0.6, -0.4, -0.2}, 消极{-1.0, -0.8}

训练

文本特征使用bert预训练模型进行提取
语音特征使用librosa库进行提取
视频使用MTCNN进行提取

超参数

选择五个随机种子进行训练,最后求平均

bert模型参数

{
"attention_probs_dropout_prob": 0.1, #乘法attention时,softmax后dropout概率 
"hidden_act": "gelu", #激活函数 
"hidden_dropout_prob": 0.1, #隐藏层dropout概率 
"hidden_size": 768, #隐藏单元数 
"initializer_range": 0.02, #初始化范围 
"intermediate_size": 3072, #升维维度
"max_position_embeddings": 512,#一个大于seq_length的参数,用于生成position_embedding "num_attention_heads": 12, #每个隐藏层中的attention head数 
"num_hidden_layers": 12, #隐藏层数 
"type_vocab_size": 2, #segment_ids类别 [0,1] 
"vocab_size": 30522 #词典中词数
}
<!-- max_position_embeddings最大位置向量长度 -->

BERT由于position-embedding的限制只能处理最长512个词的句子。如果文本长度超过512,有以下几种方式进行处理:

**a)直接截断:**从长文本中截取一部分,具体截取哪些片段需要观察数据,如新闻数据一般第一段比较重要就可以截取前边部分;

**b)抽取重要片段:**抽取长文本的关键句子作为摘要,然后进入BERT;

**c)分段:**把长文本分成几段,每段经过BERT之后再进行拼接或求平均或者接入其他网络如lstm。

网络结构

avatar

子网络

使用了LSTM,训练单模态内的一个特征表示

网络融合

使用了六种baseline的融合网络:
EF-LSTM
LF-DNN
MFN  (需要多个模态在词级对齐)
LMF (TFN的拓展)
TFN
MULT

损失函数

L = min ⁡ 1 N t ∑ n = 1 N t ∑ i α i L ( y i n , y ^ i n ) + ∑ j β j ∥ W j ∥ 2 2 L=\min \dfrac{1}{N_t}\sum ^{Nt}_{n=1}\sum _{i}\alpha _{i}L\left( y_{i}^{n},\widehat{y}_{i}^n\right) +\sum _{j}\beta _{j}\left\| W_{j}\right\| _{2}^{2} L=minNt1n=1NtiαiL(yin,y in)+jβjWj22
i ∈ { m , t , a , v } , j ∈ { t , a , v } i\in \left\{ m,t,a,v\right\}, j\in \left\{ t,a,v\right\} i{ m,t,a,v},j{ t,a,v}
组成,由四个任务的输出音频,视频,文本,多模态的损失函数加权组合而成,最后的正则项是三个单模态任务和多模态任务的一个共享参数

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_34741466/article/details/114533722

智能推荐

分享一下电流拉线位移编码器的特点_wycgq的博客-程序员宅基地_电流型编码器

分享一下电流拉线位移编码器的特点电流拉线位移编码器电流信号内阻很小,由于电流的特性,电流信号无法用简单方法直接检测,需要在接收端串入负载电阻RL,通过检测负载电阻的压降接收信号。由于电流信号的内阻较小,噪声信号很难形成较大的电压,因此位移编码器电流输出型的抗干扰能力相对较强,相对于电压输出型,具有抗干扰能力强、无衰减、无迟滞、传输距离远等特点。但是为了保护输出电路,需要有一个zui大负载电阻限制,功率较大。电流信号或者数字信号,进入处理器进行判断的其实都是电平的高低,如果选用电流信号,也是加载合适的负

uniapp实现生成海报功能_清慕_qing的博客-程序员宅基地_uniapp海报

在一些项目中有些需求会需要分享海报的功能,今天呢就为大家分享一下我在用uniapp开发中使用的一款插件,可以任意的布局。超级好用文档链接安排上:https://ext.dcloud.net.cn/plugin?id=2389引入插件在上面的链接中下载插件然后引入import lPainter from '@/components/lime-painter/'//存放插件的路径,可能跟我的不一样export default { components: {lPainter}}基本用法b

peq计算机制图,PEQ1800学时课程介绍——工业制图_weixin_39820158的博客-程序员宅基地

原标题:PEQ1800学时课程介绍——工业制图工业制图Industrial DraftingDessin industriel 代码5725文凭DVS学时1800专业介绍工业制图主要课程内容:手绘或用计算机进行快速准确的工业图纸绘制。如:机械制造图纸,装配图纸,机械框架图纸,液压、气动及电子系统图纸及相关工业领域图纸绘制。培养目标发展工业图纸绘制的必要的技能,如:解决与工业制图,测量和解析相关的问...

课堂小作业之3位水仙花数计算_次惑小技术啊的博客-程序员宅基地_输出三位数中所有的水仙花数

3位水仙花数计算‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬描述“3位水仙花数”是指一个三位整数,其各位数字的3次方和等于该数本身。例如:ABC是一个“3位水仙花数

自己用qt编写的图片查看器_GreenHandBruce的博客-程序员宅基地

功能:1.能打开并显示所有QImage能识别的图片格式文件2.能缩放,拖动图片,Ctrl+右击还原到适应窗口大小3.右击可弹出菜单栏,菜单包括:适应宽度,适应窗口,原图大小,截图保存,批量重命名4.适应宽度的状态下,只能上下拖动图片5.左右方向键或者A和D键控制前后图片切换6.记录上一次关闭窗口时,窗口的位置和大小,并在下一次打开的时候按照该位置和大小显示窗口7.能接收拖动图片或者文...

高阶程序员必备技能:Fizz网关的二次开发_linwaiwa的博客-程序员宅基地_网关二次开发

一、概述在使用 fizz 过程中,可能会碰到:需要定制http server需要额外的http client需要自定义http filter需要访问mysql、redis/codis、mongo、kafka 等等问题,下面依次介绍解决办法,同时其它二次开发问题亦可参考。二、定制http serverfizz 采用 webflux 官方默认亦是最优的 http server 实现,并通过 WebFluxConfig 暴露,以方便外界进行细粒度的控制。不建议创建多个 http server

随便推点

JVM性能调优监控工具专题二:VisualVM基本篇之监控JVM内存,CPU,线程_xiaomin_____的博客-程序员宅基地

前言:        上一个专题中讲述了JVM中自带的各种性能测试的小工具:包括jps,jstatck,jmap,jhat,jsats,hprofhttp://josh-persistence.iteye.com/blog/2161848,根据项目应用中的具体情况,如果想要查看Java进程中线程堆栈的信息,可以选择jstack,如果要查看堆内存,可以使用jmap导出并使用jhat来进行分...

android指纹解锁动画,Android8.1 SystemUI Keyguard之指纹解锁流程_有机社会的博客-程序员宅基地

手指在指纹传感器上摸一下就能解锁,Keyguard是怎么做到的呢?下面我们就跟着源码,解析这整个过程。何时开始监听指纹传感器?先来看下IKeyguardService这个binder接口有哪些回调吧// 当另一个窗口使用FLAG_SHOW_ON_LOCK_SCREEN解除Keyguard时PhoneWindowManager调用public void setOccluded(boolean isO...

TSM管理及备份数据到带库的方法及具体命令使用示例_conghuchou5866的博客-程序员宅基地

本文简单介绍了如何使用IBM提供备份工具TSM管理及备份数据到带库的方法及具体命令使用示例。详细内容如下所示:1. 备份/tsmdata/baktest目录及其所有子目录中的所有文件:dsmc select...

cve-2015-0569 安卓手机提权ROOT漏洞 分析_Omni-Space的博客-程序员宅基地_wlan_feature_packet_filtering

测试机器:nexus4       android版本:4.4   内核版本3.4.0 漏洞介绍:函数进行拷贝时没有对长度进行判断,导致用户可以修改内核栈中值。漏洞利用:通过修改函数返回地址,来进行提权操作1,首先找到官方的修补代码修补代码地址:https://www.codeaurora.org/cgit/quic/la/platform/vendor/qcom-openso

几种常用的软件测试工具_Layne的博客的博客-程序员宅基地_常用的测试软件

Rational Robot是业界最顶尖的功能测试工具,它甚至可以在测试人员学习高级脚本技术之前帮助其进行成功的测试。它集成在测试人员的桌面 IBM Rational TestManager 上,在这里测试人员可以计划、组织、执行、管理和报告所有测试活动,包括手动测试报告。这种测试和管理的双重功能是自动化测试的理想开始。网址:http://www-306.ibm.com/software/rati

linux下shell脚本实例_小可爱(⑉°з°)-♡的博客-程序员宅基地

1.用户建立脚本 执行 users_create.sh userlist passlist 建立 userlist 列表中的用户 设定 userlist 列表中的密码为 passlist 列表中的密码 当脚本后面跟的文件个数不足两时,报错 当文件行数不一致时报错 当文件不存在时报错 当用户存在时报错 2.数据库备份 执行 db_dump.sh westos( 数据库密码 ...

推荐文章

热门文章

相关标签