【模型压缩】模型压缩的几种方式概述-程序员宅基地

技术标签: 计算机视觉  【AI模型训练与部署】  人工智能  【pytorch】  

1. AI模型组成

通常在训练模型时为了精度,权重值大多会使用32位浮点数(FP32)表示法,这就代表了每个权重占用了4个Byte(32bit)的储存(硬盘)和计算(随机内存)空间。 这还不包括在推论计算过程中额外所需的临时随机内存需求。

为了让运行时减少数据(网络结构描述及权重值)在CPU和AI加速计算单元(如GPU, NPU等)间搬移的次数,所以通常会一口气把所有数据都都加载专用内存中,但一般配置的内存数量都不会太多,大约1GB到16GB不等,所以如果没有经过一些减量或压缩处理,则很难一口气全部加载。
在这里插入图片描述

2. 常见的模型压缩方式

如同前面提到的,我们希望将一个强大复杂的AI模型减量、压缩后,得到一个迷你、简单的模型,但仍要能维持原有的推论精度或者只有些微(0%到指定%)的下降,就像我们平常看到的JPG影像、MP4影片,虽然采大幅度破坏性压缩,但人眼是很难分辨其品质差异的。 这样可以得到几项好处,包括大幅减少存储空间和计算用内存,推论速度加快,耗能降低,同时更有机会使用较低计算能力的硬件(如GPU变成CPU)来完成推理工作。 以下就把常见的四种方式简单介绍给大家。

2.1 模型量化 Model quantification

具体细节可阅读blog

通常在训练模型时,为求权重有较宽广的数值动态范围,所以大部分会采用32位浮点数(FP32, 符号1 bit,指数8 bit,小数23 bit,共4 Byte,数值表示范围 ±1.18e-38 ~ ±3.40e38)。
而经许多数据科学家实验后,发现在推理时将数值精度降至16位浮点数(FP16, 2 Byte, -32,768 ~ +32767),甚至8位整数(INT8, 1 Byte, -128 ~ +127)、8位浮点数(FP8, e5m2, e4m3, 1 Byte)在推论时其精度下降幅度可控制在一定程度内,同时可让储存空间和内存使用量减少1/2到3/4,若加上有支持SIMD或平行运算指令集[1]还可让运算量提升1.x ~ 3.x倍,一举多得。

以FP32量化为INT8为例,一般最简单的作法就是把所有空间等比对称分割再映射,不过当遇到权重值分配往单边靠或集中在某个区间时就很难分别出细部差异。 于是就有以最大值与最小值非对称方式来重新映射,以解决上述问题。

这样的量化减量的方式最为简单,但也常遇到模型所有层用同一数值精度后推论精度下降太多,于是开始有人采混合精度,即不同层的权重可能采不同数值精度(如 FP32,FP16,INT8 等)来进行量化。 不过这样的处理方式较为复杂,通常需要一些自动化工具来协助。
在这里插入图片描述

2.2 模型剪枝 Model pruning

所谓树大必有枯枝,模型大了自然有很多链接(权重)是没有存在必要的或者是删除后只产生非常轻微的影响。 如果要透过人为方式来调整(删除、合并)数以百万到千万的连结势必不可能,此时就只能透过相关程序(如Intel OpenVINO, Nvidia TensorRT,Google TensorFlow Lite等)使用复杂的数学来协助完成。

经过剪枝后,计算量会明显下降,但可以减少多少则会根据模型复杂度及训练的权重值分布状况会有很大差异,可能从数%到数十%不等,甚至运气好有可能达到减量90%以上。

另外由于剪枝后会造成模型结构(拓扑)变成很不完整,无法连续读取,所以需要另外增加一些描述信息。 不过相对权重值占用的储存空间,这些多出来的部份只不过是九牛一毛,不需要太过在意。
在这里插入图片描述

2.3 权重共享 Weight share

由于权重值大多是由浮点数表示,所以若能将近似值进行群聚(合并),用较少的数量来表达,再使用查表法来映射,如此也是一个不错的作法。 但缺点是这样的作法会增加一些对照表,增加推理时额外的查表工作,且由于和原数值有些微差异,因此会损失一些推论精度

如Fig. 4所示,即是将16个权重先聚类成4个权重(索引值),再将原本的权重值变成索引号,等要计算时再取回权重值,这样储存空间就降到原本的1/4。
在这里插入图片描述

2.4 知识蒸馏 Knowledge distillation

知识蒸馏基本上不是直接压缩模型,而是利用一个小模型去学习大模型输出的结果,间接减少模型的复杂度、权重数量及计算量。 大模型就像老师,学富五车,经过大数据集的训练,拥有数百万甚至千亿个权重来帮忙记住各种特征。 而小模型就学生,上课时间有限,只能把老师教过的习题熟练于心,但若遇到老师没教过的,此时是否能举一反三,顺利答题就很难保证了。

如Fig. 5所示,训练学生模型时,将同一笔数据输入到老师模型和学生模型中,再将老师的输出变成学生的标准答案,学生模型再以此调整所有权重,使输出推论结果和老师一样即可。 当给予足够多及足够多样的样本训练后,学生就能结束课程,独当一面了。
在这里插入图片描述

3. 小结

以上仅是简单介绍了部份减量及压缩模型的方式,还不包含模型减量、压缩后造成的精度下降如何调整。 这些工作相当复杂,只能交给专业的工具来办,其中 Intel OpenVINO Toolkit 就有提供许多模型优化(Model Optimization)及神经网络压缩工具 NNCF (Neural Network Compression Framework),有兴趣的朋友可以自行了解一下。

文章转载自:https://www.51openlab.com/article/548/
仅作学习记录

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/All_In_gzx_cc/article/details/135864351

智能推荐

计算机组成原理 练习卷 第2章第1节数据与文字的表示方法(解析版)(正确答案版)-程序员宅基地

文章浏览阅读412次。计算机组成原理 练习卷 第2章第1节数据与文字的表示方法(解析版)(正确答案版)

WAP 中 AS 和 PSK 模式的认证_静态psk认证是什么意思-程序员宅基地

文章浏览阅读4.5k次,点赞3次,收藏15次。参考《无线网络技术–原理,安全及编程》本博文是期末复习总结,参考了学校老师还未出版的教材,仅供学习使用。PSK 模式PSK 是我们传统的连接无线路由器的认证方式,及无线路由器管理员事先设置统一的连接密码,其他接入者同这个密码进行连接。1.基本过程由 AP 生成临时值 ANonce 发给 STASTA 完成下列计算*1).STA 生成临时值 SNonce*2).STA ......_静态psk认证是什么意思

ANSYS_APDL——实例001-模态分析_apdl模态分析-程序员宅基地

文章浏览阅读4k次。学习APDL无从下手,怎么办,就从实例出发,一点一点了解/clear/prep7et,1,solid186mp,ex,1,2e11 !mp后面都为材料参数mp,prxy,1,0.3mp,dens,1,7800block,0,0.01, 0,0.01, 0,0.1 !创建体,基于工作平面,x1,x2,y1,y2,z1,z2lesize,1,,,3 !将编号为1的线划分为3份,lesize,2,,,3 !将编号为2的线划分3份 lesize,9,,,15 !将编号为9的线划分15份m_apdl模态分析

MySQL常用应用函数笔记-程序员宅基地

文章浏览阅读418次,点赞14次,收藏12次。MySQL常用分组拼接函数与时间函数

解决Dbeaver连接一段时间不操作后断开的问题_dbeaver自动断开连接-程序员宅基地

文章浏览阅读1.3k次。2、点击【初始化】将【连接保持】改成60s,这样数据库就不会自己断开了。1、首先右键数据库连接点击【编辑连接】_dbeaver自动断开连接

单片机项目分享 基于ESP32的在线墨水屏桌面摆件 -物联网 单片机 嵌入式-程序员宅基地

文章浏览阅读916次,点赞21次,收藏20次。 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天要分享的是基于STM32自行车智能无线防盗报警器学长这里给一个题目综合评分(每项满分5分)难度系数:3分工作量:4分创新点:4分。

随便推点

自习室预约小程序有哪些功能?_自习室小程序-程序员宅基地

文章浏览阅读1.5k次。有了自习室小程序,要查看附近有哪些自习室,直接在微信打开附近的小程序,周边自习室一览无遗;想要查看附近有哪些自习室,打开附近的小程序,立即锁定最近的自习室,即使你的店在最偏僻的角落,只要附近有人,用户打开小程序就能看到你的自习室。微信小程序的活跃用户非常的多,自习室门店利用所开发的小程序,帮助店铺获得更多的客源。自习室预约服务就是用户在使用小程序在线订场服务,在小程序中,可以直观的看到自习室的预约情况、预约费用,然后在线缴付订金。还可以邀请小伙伴一起组队,只需要几分钟就能完成整个预约过程。..._自习室小程序

如何完整卸载wxpython_wxpython学习笔记-程序员宅基地

文章浏览阅读442次。一、简介wxPython是Python编程语言的一个GUI工具箱。他使得Python程序员能够轻松的创建具有健壮、功能强大的图形用户界面的程序。它是Python语言对流行的wxWidgets跨平台GUI工具库的绑定。而wxWidgets是用C++语言写成的。和Python语言与wxWidgets GUI工具库一样,wxPython是开源软件。这意味着任何人都可以免费地使用它并且可以查看和修改它的源..._如何卸载wxauto库

3、apache-kylin-3.1.3-bin-hadoop3基本操作(创建model和cube、数据查詢)-程序员宅基地

文章浏览阅读2.5w次。本文简单的介绍了kylin的基本使用示例,也给出了hive和kylin的使用比较。本文中第一个示例详细的介绍了kylin的使用步骤,以及与hive的使用简单对比;第二个示例单独的使用kylin来实现,仅仅给出了最后一个示例的hive执行时间的对比。本文依赖hive环境好用、kylin环境好用。本文部分数据来源于互联网。_apache-kylin-3.1.3-bin-hadoop3基本操作(创建model和cube、数据查詢

sentinel 限流算法,方式 漏桶,令牌桶 限流,降级,熔断_sentinel 限流原理 令牌桶 漏桶-程序员宅基地

文章浏览阅读690次,点赞6次,收藏3次。Sentinel 是阿里巴巴开源的一个流量控制、熔断降级组件,主要用于微服务架构中的服务保护。Sentinel 提供了多种限流算法和策略,其中与限流相关的算法包括漏桶算法和令牌桶算法。同时,Sentinel 还支持降级和熔断机制,以应对系统的不同压力情况。_sentinel 限流原理 令牌桶 漏桶

【UAV】基于李亚普诺夫的跟踪和动态编队控制实现水下勘探的先进AUV控制方法附matlab代码-程序员宅基地

文章浏览阅读1.2k次,点赞38次,收藏22次。随着海洋科学研究和资源开发的不断深入,水下自主航行器(AUV)作为一种重要的海洋装备,在海洋勘探、水下作业和科学研究等领域发挥着越来越重要的作用。AUV 的控制技术是实现其自主航行和完成任务的关键,而基于李亚普诺夫的跟踪和动态编队控制方法是 AUV 控制领域的研究热点之一。基于李亚普诺夫的跟踪和动态编队控制方法是 AUV 控制领域的研究热点之一,具有鲁棒性强、易于实现等优点,在水下勘探中具有广泛的应用前景。

ELK之elasticsearch导致CPU居高不下系统慢解决办法-程序员宅基地

文章浏览阅读1.4k次。  参考:http://zoufeng.net/2018/07/16/cpu-of-elasticsearch-high-search-slow/  elasticsearch主机CPU居高不下100%左右并且一直维持高CPU利用水平  修改配置文件/etc/elasticsearch/jvm.options  -Xms1g-Xmx1g改成..._线上elk导致cpu

推荐文章

热门文章

相关标签