科研训练第十八周——关于Attention的盘复_ian模型-程序员宅基地

技术标签: lstm  深度学习  自然语言处理  科研训练  

1.相关论文阅读

传送门:《Interactive Attention Networks for Aspect-Level Sentiment Classification》

1.1. introduction

略(如果你不了解ABSC任务

1.2. motivation

虽说是前几年的工作,但是这个part现在读起来,昂有种穿越的赶脚,大概是NLP发展比较快叭

  1. 基于特征工程SVM之类的,人工设计特征代价过大
  2. 基于深度学习的,40%的ABSC分类错误是由于没有考虑target导致的,而大多现有的工作忽视了对于目标target的建模

1.3. model

在这里插入图片描述

原文(机翻)
Ian模型由两部分组成,它们可以交互式地建模目标和上下文。以单词嵌入为输入,我们利用LSTM网络分别获取目标和上下文在单词水平上的隐藏状态。我们利用目标的隐藏状态和上下文的隐藏状态的平均值来监督注意向量的生成,利用注意机制来捕获上下文和目标中的重要信息。通过这种设计,目标和上下文可以影响交互式地生成它们的表示。最后,将目标表示和上下文表示连接为最终表示,并输入一个softmax函数,用于方面级情绪分类

大概思路是LSTM分别输出target和context的隐层表示,Attention的监督体现在,针对特定taget去关注特定的上下文,针对特定文本关注target,最终左右表示向量拼接起来是为了提高维度来增加准确率,用softmax输出情感分类结果。

具体步骤
1、词嵌入

2、LSTM处理获取最终表示
LSTM的公式(会的可以略过,不理解的戳这里
在这里插入图片描述
利用平均池化的方式(也就是隐层结点计算结果分别取平均)获得target以及context的表示:
在这里插入图片描述
3、注意力机制分配权重
如何计算注意力向量,以模型图右侧为例子:
依靠LSTM计算得出的上下文隐层表示 h c h_c hc和左侧池化得到的target目标表示 t a v g t_{avg} tavg来生成注意力向量
在这里插入图片描述

在这里插入图片描述
同理可以得到左侧的注意力向量:
在这里插入图片描述
将每个词对应的注意力向量和它对应的LSTM生成的隐层向量结合,得到最终的表示如下 c r c_r cr是右侧生成的, t r t_r tr是左侧生成的
在这里插入图片描述
4、 将 c r c_r cr以及 t r t_r tr拼接起来,作为最后的表示,用softmax做分类~

1.4. conclusion

消融实验结果:
这部分还没有结束复现,下周填一下坑
在这里插入图片描述
与其他模型的对比实验结果:
在这里插入图片描述

原文(机翻):
在本文中,我们设计了一个交互式注意网络(Ian)模型。Ian的主要思想是使用两个注意网络来交互式地建模目标和内容。Ian模型可以密切关注目标和上下文中的重要部分,并能很好地生成目标和上下文的表示。然后,Ian从在其他方法中总是被忽略的目标表示中获益。在SemEval2014上的实验验证,Ian可以学习目标和内容的有效特征,并为判断目标情绪极性提供足够的信息。案例研究还表明,Ian可以合理地注意那些对判断目标的情绪极性很重要的词汇。

2. 复现工作

2.0 preparation

Data:SemEval 2014
Embedding:GloVe

2.1. code

github代码链接,如果你愿意给我一颗小星星,刚学写得比较菜啦,有些报错和连接问题所以git用得不是很好,另外模型部分还有很多问题,有幸得话欢迎大佬指正或者讨论
模型部分:

import torch
import torch.nn as nn
import math
import torch.nn.functional as F
from utils.layers import DynamicLSTM,Attention

class MYIAN(nn.Module):
    def __init__(self,embedding_matrix,opt):
        """
        初始化模型
        :param embedding_matrix:
        """
        super(MYIAN,self).__init__()
        self.opt=opt
        self.embed=nn.Embedding.from_pretrained(torch.tensor(embedding_matrix,dtype=torch.float))
        self.target_lstm=DynamicLSTM(opt.embed_dim,opt.hidden_dim,num_layers=1,batch_first=True)
        self.context_lstm=DynamicLSTM(opt.embed_dim,opt.hidden_dim,num_layers=1,batch_first=True)
        self.target_attention=Attention(opt.hidden_dim)
        self.context_attention=Attention(opt.hidden_dim)
        self.dense=nn.Linear(opt.hidden_dim*2,opt.polarities_dim)


    def forward(self,inputs):
        text,target=inputs[0],inputs[1]
        context_len=torch.sum(text!=0,dim=-1)
        target_len=torch.sum(target!=0,dim=-1)

        """lstm"""
        context=self.embed(text)
        target=self.embed(target)
        context_hidden_list,(_,_)=self.context_lstm(context,context_len)
        target_hidden_list,(_,_)=self.target_lstm(target,target_len)

        """pool"""
        target_len=torch.as_tensor(target_len,dtype=torch.float).to(self.opt.device)
        target_pool=torch.sum(target_hidden_list,dim=1)
        target_pool=torch.div(target_pool,target_len.view(target_len.size(0),1))

        context_len = torch.as_tensor(context_len, dtype=torch.float).to(self.opt.device)
        context_pool = torch.sum(context_hidden_list, dim=1)
        context_pool = torch.div(context_pool, target_len.view(context_len.size(0), 1))

        """attention"""
        target_final,_=self.target_attention(target_hidden_list,context_pool)# target是k context_pool是q
        target_final=target_final.squeeze(dim=1)
        context_final,_=self.context_attention(context_hidden_list,target_pool)# context是k target是q--->对于特定的
        context_final=context_final.squeeze(dim=1)

        """合并"""
        x=torch.cat((target_final,context_final),dim=-1)

        """分类"""
        out=self.dense(x)

        return out
        

关于保存实验参数(仅仅是超参数的设置以及实验正确率):
一直想做,但是一直懒癌……其实写个Demo也不难,毕竟比起每次手动记录实验结果的时间消耗,这个还是比较划算der~

import csv
def my_log(opt):
    file = './log/logging.csv'

    '''表头'''
    # namelist4 = ['model_name', 'dataset', 'optimizer', 'initializer', 'lr',
    #              'dropout','l2reg','num_epoch','batch_size','log_step',
    #              'embed_dim','hidden_dim','position_dim','max_length','device',
    #              'repeats','max_test_acc','max_f1'
    #              ]
    # df = pd.read_csv(file, header=None, names=namelist4)
    # df.to_csv(file, index=False)

    with open(file,'a+') as f:
        csv_write = csv.writer(f)
        data_row = [opt.model_name,opt.dataset,opt.optimizer,opt.initializer,opt.learning_rate,
                    opt.dropout,opt.l2reg,opt.num_epoch,opt.batch_size,opt.log_step,
                    opt.embed_dim,opt.hidden_dim,opt.position_dim,opt.max_length,opt.device,
                    opt.repeats,opt.max_test_acc,opt.max_test_f1]
        csv_write.writerow(data_row)

2.1.1 实验中遇到的编程以及环境问题记录

其实问题不大,但是循环起来的时候一直在输出warn就很难受

报错代码:

context_len = torch.tensor(context_len, dtype=torch.float).to(self.opt.device)

改成:

context_len = torch.as_tensor(context_len, dtype=torch.float).to(self.opt.device)

2.2. results

改一改参数的话,应该会更高一点
目前用的优化器都是Adam
SGD+动量可以收敛但是效果不佳(基本在50%+范围浮动)
Laptop:

模型 test_acc test_f1
LSTM 0.691 0.603
IAN 0.719 0.660

Restaurant:

模型 test_acc test_f1
LSTM 0.748 0.613
IAN 0.750 0.615

2.2.1. others

因为ML结课作业的扩展部分是自己实现了一下几种深度学习常见的优化器,所以额外试着跑了一下不同优化器对于模型收敛的影响:
不知道是不是自己代码实验做得不够多的原因,总觉得优化器的设置也属于一个比较大的研究方向
SGD和ASGD基本上没有办法收敛emm比较让人费解,不知道是不是Attention的那边的模型不适合SGD这种的收敛。

  • sgd-lr(不加动量1e-5会在开始的时候严重震荡,虽然大体方向是正确的,但是效果很糟糕(值得一提的是,不加动量的sgd对于LSTM单一模型的影响影响不大,LSTM在同样设置下可以正常且较为快速地收敛)[Laptop测试集acc:0.53 f1:0.23]
    在这里插入图片描述
    按照论文的说法,加入momentum动量之后可以有效收敛:acc 0.539 f1 0.268
    在这里插入图片描述

  • Adamax相同参数下的效果比较好[Laptop测试集acc:0.697 f1:0.622]
    在这里插入图片描述

2.3 analysis

总体来讲,IAN相对于LSTM的提升效果没有特别大幅度(emmmmmmm不应该吖,还得改代码看看哪里出问题了,上一篇博文里我自己实现的LSTM最好的效果在Restaurant也是70%+,平均结果是65%,这篇用的LSTM是torch自带的组件),但是Attention机制的引入确实比单独的LSTM要好很多

Attention机制的讲解

【复习Attention基础的话暂时戳这里叭】
这个坑emm应该得等下周补一下,主要是目前接触的attention计算公式不是很多

可以忽视的碎碎念:

然后捏,发现这一周零零总总居然开了五次会议(好叭有些可能不算会议性质,并且一次比一次长)……放假了又好像没有完全放……
Attention是暑假也做过的工作,当时浅薄地过了一下模型,个中原理推敲得不细致以至于回忆起来基本没啥印象(机器人考试还考了这个,忘记真是不应该 ),借这个机会正好好好过一下,反正寒假还是蛮长滴
本周结束了一个小game,赎身的感觉很好,但是也发现了自己学习上的诸多毛病。很感慨的是数据挖掘的任务和平时做实验还有课程有很大的区别,对于数据本身预处理部分可能有时候比模型更重要(前提是选模型的方向要对哈)。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_45751990/article/details/122484587

智能推荐

分布式光纤传感器的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告_预计2026年中国分布式传感器市场规模有多大-程序员宅基地

文章浏览阅读3.2k次。本文研究全球与中国市场分布式光纤传感器的发展现状及未来发展趋势,分别从生产和消费的角度分析分布式光纤传感器的主要生产地区、主要消费地区以及主要的生产商。重点分析全球与中国市场的主要厂商产品特点、产品规格、不同规格产品的价格、产量、产值及全球和中国市场主要生产商的市场份额。主要生产商包括:FISO TechnologiesBrugg KabelSensor HighwayOmnisensAFL GlobalQinetiQ GroupLockheed MartinOSENSA Innovati_预计2026年中国分布式传感器市场规模有多大

07_08 常用组合逻辑电路结构——为IC设计的延时估计铺垫_基4布斯算法代码-程序员宅基地

文章浏览阅读1.1k次,点赞2次,收藏12次。常用组合逻辑电路结构——为IC设计的延时估计铺垫学习目的:估计模块间的delay,确保写的代码的timing 综合能给到多少HZ,以满足需求!_基4布斯算法代码

OpenAI Manager助手(基于SpringBoot和Vue)_chatgpt网页版-程序员宅基地

文章浏览阅读3.3k次,点赞3次,收藏5次。OpenAI Manager助手(基于SpringBoot和Vue)_chatgpt网页版

关于美国计算机奥赛USACO,你想知道的都在这_usaco可以多次提交吗-程序员宅基地

文章浏览阅读2.2k次。USACO自1992年举办,到目前为止已经举办了27届,目的是为了帮助美国信息学国家队选拔IOI的队员,目前逐渐发展为全球热门的线上赛事,成为美国大学申请条件下,含金量相当高的官方竞赛。USACO的比赛成绩可以助力计算机专业留学,越来越多的学生进入了康奈尔,麻省理工,普林斯顿,哈佛和耶鲁等大学,这些同学的共同点是他们都参加了美国计算机科学竞赛(USACO),并且取得过非常好的成绩。适合参赛人群USACO适合国内在读学生有意向申请美国大学的或者想锻炼自己编程能力的同学,高三学生也可以参加12月的第_usaco可以多次提交吗

MySQL存储过程和自定义函数_mysql自定义函数和存储过程-程序员宅基地

文章浏览阅读394次。1.1 存储程序1.2 创建存储过程1.3 创建自定义函数1.3.1 示例1.4 自定义函数和存储过程的区别1.5 变量的使用1.6 定义条件和处理程序1.6.1 定义条件1.6.1.1 示例1.6.2 定义处理程序1.6.2.1 示例1.7 光标的使用1.7.1 声明光标1.7.2 打开光标1.7.3 使用光标1.7.4 关闭光标1.8 流程控制的使用1.8.1 IF语句1.8.2 CASE语句1.8.3 LOOP语句1.8.4 LEAVE语句1.8.5 ITERATE语句1.8.6 REPEAT语句。_mysql自定义函数和存储过程

半导体基础知识与PN结_本征半导体电流为0-程序员宅基地

文章浏览阅读188次。半导体二极管——集成电路最小组成单元。_本征半导体电流为0

随便推点

【Unity3d Shader】水面和岩浆效果_unity 岩浆shader-程序员宅基地

文章浏览阅读2.8k次,点赞3次,收藏18次。游戏水面特效实现方式太多。咱们这边介绍的是一最简单的UV动画(无顶点位移),整个mesh由4个顶点构成。实现了水面效果(左图),不动代码稍微修改下参数和贴图可以实现岩浆效果(右图)。有要思路是1,uv按时间去做正弦波移动2,在1的基础上加个凹凸图混合uv3,在1、2的基础上加个水流方向4,加上对雾效的支持,如没必要请自行删除雾效代码(把包含fog的几行代码删除)S..._unity 岩浆shader

广义线性模型——Logistic回归模型(1)_广义线性回归模型-程序员宅基地

文章浏览阅读5k次。广义线性模型是线性模型的扩展,它通过连接函数建立响应变量的数学期望值与线性组合的预测变量之间的关系。广义线性模型拟合的形式为:其中g(μY)是条件均值的函数(称为连接函数)。另外,你可放松Y为正态分布的假设,改为Y 服从指数分布族中的一种分布即可。设定好连接函数和概率分布后,便可以通过最大似然估计的多次迭代推导出各参数值。在大部分情况下,线性模型就可以通过一系列连续型或类别型预测变量来预测正态分布的响应变量的工作。但是,有时候我们要进行非正态因变量的分析,例如:(1)类别型.._广义线性回归模型

HTML+CSS大作业 环境网页设计与实现(垃圾分类) web前端开发技术 web课程设计 网页规划与设计_垃圾分类网页设计目标怎么写-程序员宅基地

文章浏览阅读69次。环境保护、 保护地球、 校园环保、垃圾分类、绿色家园、等网站的设计与制作。 总结了一些学生网页制作的经验:一般的网页需要融入以下知识点:div+css布局、浮动、定位、高级css、表格、表单及验证、js轮播图、音频 视频 Flash的应用、ul li、下拉导航栏、鼠标划过效果等知识点,网页的风格主题也很全面:如爱好、风景、校园、美食、动漫、游戏、咖啡、音乐、家乡、电影、名人、商城以及个人主页等主题,学生、新手可参考下方页面的布局和设计和HTML源码(有用点赞△) 一套A+的网_垃圾分类网页设计目标怎么写

C# .Net 发布后,把dll全部放在一个文件夹中,让软件目录更整洁_.net dll 全局目录-程序员宅基地

文章浏览阅读614次,点赞7次,收藏11次。之前找到一个修改 exe 中 DLL地址 的方法, 不太好使,虽然能正确启动, 但无法改变 exe 的工作目录,这就影响了.Net 中很多获取 exe 执行目录来拼接的地址 ( 相对路径 ),比如 wwwroot 和 代码中相对目录还有一些复制到目录的普通文件 等等,它们的地址都会指向原来 exe 的目录, 而不是自定义的 “lib” 目录,根本原因就是没有修改 exe 的工作目录这次来搞一个启动程序,把 .net 的所有东西都放在一个文件夹,在文件夹同级的目录制作一个 exe._.net dll 全局目录

BRIEF特征点描述算法_breif description calculation 特征点-程序员宅基地

文章浏览阅读1.5k次。本文为转载,原博客地址:http://blog.csdn.net/hujingshuang/article/details/46910259简介 BRIEF是2010年的一篇名为《BRIEF:Binary Robust Independent Elementary Features》的文章中提出,BRIEF是对已检测到的特征点进行描述,它是一种二进制编码的描述子,摈弃了利用区域灰度..._breif description calculation 特征点

房屋租赁管理系统的设计和实现,SpringBoot计算机毕业设计论文_基于spring boot的房屋租赁系统论文-程序员宅基地

文章浏览阅读4.1k次,点赞21次,收藏79次。本文是《基于SpringBoot的房屋租赁管理系统》的配套原创说明文档,可以给应届毕业生提供格式撰写参考,也可以给开发类似系统的朋友们提供功能业务设计思路。_基于spring boot的房屋租赁系统论文