内修昇思MindSpore AI框架,外重行业汇聚,华为大模型的不平凡之路_使用华为的的卡训练模型必须是mindspore吗-程序员宅基地

技术标签: 算法  技术博客  语言模型  机器学习  人工智能  自然语言处理  

要说近几年深度学习领域最热门的研究课题有哪些?大模型肯定在列。从 2020 年 OpenAI 发布 1750 亿参数的 GPT-3 开始,炼大模型这股潮流变得不可阻挡。依托自身效果好、泛化能力强等特点,大模型进一步增强 AI 的通用性,更成为 AI 技术和应用的新基座。

科技巨头们纷纷下场,接连推出千亿甚至万亿参数级的大模型。而纵观现有大模型,NLP、CV 以及多模态成为三个主要的发力方向,这些偏向于基础大模型;同时,能否落地应用成为检测大模型能力的重要指标,因此具备丰富领域知识的行业大模型也越来越受到业界的关注。

在大模型这条赛道上,国内 AI 厂商各显神通。华为也不例外,原生支持大模型训练的昇思 MindSpore AI 框架成为其发展大模型的关键。昇思 MindSpore 的开源开放使得国内产学界一些科研机构基于它打造了一系列大模型。

据了解,昇思 MindSpore 在进行架构设计时就考虑了大模型开发时遇到的内存占用、通信瓶颈、调试复杂、部署难等问题,针对性的技术研究与创新:

  • 业界领先的全自动并行能力,提供 6 维混合并行算法,即数据并行、模型并行、流水并行、优化器并行等,一行代码实现模型自动切分、分布式并行计算,开发并行代码量降低 80%、系统调优时间下降 60%;

  • 极致的全局内存复用能力,在开发者无感知的情况下,自动实现 NPU 内存 / CPU 内存 / NVMe 硬盘存储的多级存储优化,512 卡就可训练 10 万亿规模的参数模型,极大降低大模型训练成本;

  • 极简的断点续训能力,可解决大集群训练故障导致的任务中断问题,实现自动恢复、继承性训练,开发者无需从头开始,千亿参数模型在分钟级就可无损恢复。

鹏城实验室基于昇思 MindSpore 先后推出了业界首个 2000 亿参数中文预训练语言模型鹏程.盘古和面向生物医学领域的鹏程.神农大模型、中科院自动化所基于昇思 MindSpore 推出了业界首个图文音三模态大模型紫东.太初、武汉大学基于昇思 MindSpore 研发了全球首个智能遥感框架及数据集武汉.LuoJia。

同时,将大模型能力开放给开发者也非常重要。昇思 MindSpore 没有忽视这一点,推出了一站式大模型体验平台,让你我皆可触碰大模型的魅力。

依托昇思MindSpore

构筑基础 + 行业大模型的整体布局

人工智能有三大支柱,分别为算力、数据和算法。根据中国信息通信研究院《AI 框架发展白皮书》的描述,AI 框架正是算法模型设计、训练和验证的一套标准接口、特性库和工具包。目前,流行的 AI 框架有国内的昇思 MindSpore、国外的 TensorFlow、PyTorch 等。 

2020 年 3 月 28 日,华为将全场景 AI 计算框架昇思 MindSpore 正式开源,致力于构筑面向全球的开源社区,持续推动 AI 开源生态繁荣发展。随着越来越多的知名高校和科研机构拥抱昇思 MindSpore,它们联合昇思 MindSpore 先后打造出了覆盖 NLP、CV 和多模态融合以及特定于某个领域的专用大模型,逐渐形成了基础大模型 + 行业大模型的整体布局。

昇思 MindSpore 总体架构。

四大模型介绍

2021 年 5 月,在华为生态大会 2021「昇腾万里 共赢智能新时代」上,鹏城实验室基于昇思 MindSpore 推出了全球首个 2000 亿参数中文 NLP 大模型鹏程.盘古,它在预训练阶段学习了 40TB 的中文文本数据。在性能方面,鹏程.盘古在 16 个下游任务中性能指标优于业界 SOTA 模型;在应用方面,鹏程.盘古在知识问答、知识检索、知识推理等丰富的文本生成领域表现突出。 

为了让鹏程.盘古大模型在各行各业的语言类场景下发挥作用,它的模型、代码和数据集在 OpenI 启智社区进行开源开放,吸引大家共同参与到模型的压缩轻量化和应用创新工作中,不断挖掘鹏程.盘古的巨大潜力。

鹏程.盘古大模型专注于文本模态,多模态则是 AI 世界的常态。推及到预训练大模型,业界广泛认为由单模态扩展至多模态是必由之路。中科院自动化所基于昇思 MindSpore 打造了全球首个千亿参数三模态大模型紫东.太初,通过跨模态语义关联达成了视觉-文本-语音三模态的统一表达和高效协同。

紫东.太初多模态大模型具有超强的图文音跨模态理解与生成能力,与单模态相比,只需要一个大模型就能支撑图文音全场景 AI 应用。紫东.太初大幅提升文本、语音、图像和视频等领域的基础任务性能,在多模态内容的理解、搜索、推荐和问答、语音识别和合成、人机交互和无人驾驶等商业应用中具有巨大的市场价值。紫东.太初同样坚持基础模型开源的开源开放,通过开源的形式将模型分享业界使用,让伙伴们基于紫东.太初孵化更多的行业应用,同时开源协作还将有利于模型进一步升级,开发者可以在紫东.太初模型代码的基础上持续创新

在华为全联接 2021 上,自动化所所长徐波演示了紫东.太初训练出来的虚拟人小初的语音生成视频能力。

无论是鹏程.盘古,还是紫东.太初,都属于基础大模型。接下来要说的是行业大模型,当被输入丰富的行业知识时,更专的大模型也就出现了。

同样在华为全联接 2021 上,鹏城实验室基于昇思 MindSpore AI 框架打造的鹏程.神农大模型正式发布,它是面向生物医学领域的AI平台,包含蛋白质结构预测、小分子生成、靶点与小分子相互作用预测以及新抗菌多肽设计与效果评价等模块,深度赋能生物制药。借助鹏程.神农的能力,制药企业和医学研究机构将大大加速新型药物的筛选与创制。

在抗菌肽(下一代抗菌素)的探索中,借助鹏程.神农大模型强大的氨基酸序列生成能力,并结合现有抗菌肽数据集,人们可以在很短时间内产生数万种候选肽的氨基酸序列。传统方法在长达四十年的时间里仅仅生成4000多种候选多肽,而鹏程.神农 + 抗菌肽分类器的组合在数月内产生30万种候选多肽。前后效果对比可见一斑,这也正是大模型的魔力。

2021年7月,武汉大学正式推出武汉.LuoJia,包含全球首个遥感影像智能解译专用框架武汉.LuoJiaNET 和业界最大遥感影像样本数据集武汉.LuoJiaSET并已于今年6月分别上线昇腾和昇思社区。武汉.LuoJia 整体解决方案为遥感应用开发提供便利,让智能遥感技术在自然资源、海洋、农业、森林、应急等行业得到广泛应用。

武汉.LuoJiaNET 针对遥感数据存在的像幅尺寸大、数据通道多、尺度变化大等特点,兼具内存可扩展、尺度通道灵活创建、数据通道自主优选、框架与数据协同处理等特性。其构建了针对遥感影像「场景 - 目标 - 像素」多维度的遥感应用模型,能够完成场景检索、目标检测、地物分类、变化检测、多视角三维重建等任务。

武汉.LuoJiaSET 则是遥感领域满足 OGC 标准的大规模遥感影像样本库,制定了支持全球范围的遥感影像样本分类标准、标注规范,建立涵盖不同遥感任务的统一分类体系,形成样本要素的采集要求、内容和流程规范,支持多级别、多类型遥感影像样本库的采集、制作、管理、共享和应用。

武汉.LuoJia 整体解决方案。

从这些大模型来看,华为已经形成了一套清晰和成熟的支持大模型发展的路径,即通过科研机构基于昇腾 AI,利用全场景 AI 框架昇思 MindSpore,打造各类大模型如鹏程.盘古和鹏程.神农大模型利用了「鹏城云脑 II」超大规模 AI 集群,紫东.太初和武汉.LuoJia 利用了武汉人工智能计算中心 AI 集群。如此一来,昇思 MindSpore AI 框架赋能+ 昇腾 AI 提供的强大算力底座,形成的良性循环将进一步为大模型的研发注入活力。

在华为伙伴暨开发者大会 2022 上,华为发布了其昇腾大模型沙盘规划,明确了基础大模型和行业大模型/应用并行发展的整体布局。在继续推进 NLP、CV 和多模态等基础 AI 创新的同时,立足于行业以实现大模型在互联网、电力、智慧城市、金融和农业等更多领域发光发热。

昇思大模型体验平台上线

在大模型实现落地应用的过程中,开发者的实际体验和意见反馈是非常重要的一环。目前来看,构建体验平台和开发者社区是比较流行的做法。如此一来,开发者可以在终端上手体验大模型的能力,并及时给予反馈以便进一步改进和完善。

基于此,昇思MindSpore社区打造了一站式大模型体验平台,并于今日正式上线。开发者可以在线体验大模型推理任务,从而最便捷地使用基于昇思的创新大模型。

据了解,昇思大模型体验平台的亮点在于集模型选型、在线推理、在线训练为一体,还支持了 Gradio 项目可视化推理、在线进行迁移学习。开发者可以在线查询基于昇思 MindSpore 构建的模型和数据集,并选择自己感兴趣的大模型及相关任务,如鹏城.盘古大模型的知识问答、检索和推理等、紫东.太初多模态大模型的以音搜图、以图生音和以音生图等。

  • 昇思大模型体验平台:https://xihe.mindspore.cn

昇思大模型体验平台将于即日起开启公测,截止至 9 月 30 日参与平台公测将可享受以下福利:

  • 第一阶:首次注册,赠送 1 小时算力

  • 第二阶:下载首个模型,赠送 1 小时算力

  • 第三阶:邀请新用户成功注册,邀请最多新用户的前三名老用户,赠送价值 5000 元、3000 元、1000 元京东卡

  • 第四阶:下载模型最多用户,前三位赠送价值 3000 元、2000 元、1000 元京东卡

  • 第五阶:创建可运行项目最多的前三位赠送 2000 元、1000 元 、500 元的算力

联系小助手即可领取相应福利;微信 mindspore0328

结语

在各大科技巨头纷纷下注大模型赛道的当下,形成自己的核心竞争力变得尤为重要。昇思 MindSpore AI 框架已经成为了大模型研发的技术支撑,开源开放更使得产学界可以基于它研发自己的大模型。当前,华为联合科研机构和产业界,基于昇思 MindSpore AI 框架与各地人工智能计算中心的昇腾 AI 强大算力不断发展基础大模型和行业大模型的产业生态,赋能千行百业数字化、智能化。

同时,为了进一步促进大模型的产业化落地,华为携手合作伙伴成立多个产业联盟,如基于武汉.LuoJia 的智能遥感开源生态联盟和基于紫东.太初的多模态人工智能产业联盟。今年,华为还计划推出 AI 流体力学产业联盟、AI 生物医药产业联盟等。

图源:华为伙伴暨开发者大会 2022

产业联盟的建立一方面促进合作伙伴基于已有大模型孵化更多行业应用,让大模型真正赋能产业;另一方面大模型得到了行业更丰富数据、和更泛化应用场景的反哺,由此带来基础能力的不断提升,让大模型更智能、更适配应用场景。

参考链接:

https://www.mindspore.cn/largeModel/taichu

https://www.mindspore.cn/largeModel/pangu

https://www.pcl.ac.cn/html/943/2021-09-26/content-3858.html

http://www.caict.ac.cn/english/research/whitepapers/202203/P020220322344729036910.pdf

MindSpore官方资料

官方QQ群 : 486831414

官网:https://www.mindspore.cn/

Gitee : https : //gitee.com/mindspore/mindspore

GitHub : https://github.com/mindspore-ai/mindspore

论坛:https://bbs.huaweicloud.com/forum/forum-1076-1.html 

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Kenji_Shinji/article/details/126180984

智能推荐

查看所有用户的信息(管理员)——dao层处理机制_dao查询信息-程序员宅基地

文章浏览阅读2.5k次。dao层scanUsers的方法:在定义方法的时候最关键的点有三个:1,定义方法名:达到见名而知意方为最佳2,确定返回值的类型3,参数的传递:确定好该方法的功能是参数能否准确确定的关键 //查看所有的用户信息(管理员) private ArrayList<User> users=null; public ArrayList<User> scanAl..._dao查询信息

Linux安全篇-攻击-程序员宅基地

文章浏览阅读244次。tcp洪水攻击:cat /proc/sys/net/ipv4/tcp_max_syn_backlog //半连接数目1024 个客户连接 /proc/sys/net/ipv4/tcp_synack_retries 探寻5次 超过断开5超过这个数目访问慢不回ACK 半连接状态cat /proc/sys/net/ipv4/tcp_syn_retries 客户端5DOS 拒..._http linux命令注入攻击

androguard-----python语言中Android恶意软件分析工具-程序员宅基地

文章浏览阅读1.9k次,点赞2次,收藏13次。https://blog.csdn.net/mergerly/article/details/65443821http://www.ijd8.com/topic/33/用python分析apk文件里的androidmanifest.xml-文件获取包信息https://www.jianshu.com/p/1deba8b28cc4_androguard

Hive函数大全-程序员宅基地

文章浏览阅读8.4k次,点赞9次,收藏72次。目录第四章 Hive函数4.1 聚合函数4.2 关系函数4.3 数学运算4.4 逻辑运算4.5 数值运算4.6 条件函数4.7 日期函数4.8 字符串函数4.9 字符串截取函数4.10 去空格函数4.11 正则表达式与解析函数4.12 explode函数4.13 行转列与列转行4.14 基础窗口函数与分析函数4.14.1 窗口函数简介4.14.2 窗口的含义4.14.3 窗口函数分类4.14.4 窗口函数的使用4.14.5._hive函数

VINS-Mono-视觉惯性对齐原理及源码解析_视觉惯性slam理论与源码pdf-程序员宅基地

文章浏览阅读968次,点赞3次,收藏5次。VINS-Mono视觉惯性对齐包括两部分陀螺仪偏置矫正和速度、重力向量、尺度因子初始化陀螺仪偏置矫正原理推导由约束关系通过视觉测得的姿态变化 = IMU预积分获得的姿态变化可获得如下约束方程:qbk+1c0−1⊗qbkc0⊗γbk+1bk=[10](1){\mathbf{q}_{b_{k+1}}^{c_{0}}}^{-1} \otimes \mathbf{q}_{b_{k}}^{c0} \otimes \boldsymbol{\gamma}_{b_{k+1}}^{b_{k}} = \begin{_视觉惯性slam理论与源码pdf

HDMI接口及规范-程序员宅基地

文章浏览阅读1w次,点赞6次,收藏88次。HDMI定义及术语HDMI(High Definition Multimedia Interface)高解晰度多媒体数位传输界面;它是基于DVI(Digital Visual Interface)的基础上延伸出的新定义;它所涉及的概念有:TMDS:(Time Minimized Differential Signal)最小化差分信号传输,是一种差分信号传输方式,HDMI信号传输通道采用了这种方式。HDCP: (High-bandwidthDigital Content Protection)_hdmi

随便推点

Hadoop入门·环境搭建_axb平台搭建-程序员宅基地

文章浏览阅读3.1k次。Hadoop入门·环境搭建_axb平台搭建

Delphi语法(一)工程文件与语法基础_delphi 工程文件-程序员宅基地

文章浏览阅读524次。delphi语法介绍,第一章工程文件,第二章基础语法_delphi 工程文件

SDR学习之——跟踪飞机轨迹_sdr飞机追踪-程序员宅基地

文章浏览阅读2.6k次。ADS-B是广播式自动相关监视的英文缩写,它主要实施空对空监视,一般情况下,只需机载电子设备(GPS接收机、数据链收发机及其天线、驾驶舱冲突信息显示器CDTI),不需要任何地面辅助设备即可完成相关功能,装备了ADS-B的飞机可通过数据链广播其自身的精确位置和其它数据(如速度、高度及飞机是否转弯、爬升或下降等)。ADS-B接收机与空管系统、其它飞机的机载ADS-B结合起来,在空地都能提供精确、..._sdr飞机追踪

产品营销策划方案:6个创意来源_营销创意的来源和途径-程序员宅基地

文章浏览阅读759次。目录  一、效仿跟踪  二、空白区域  三、新创建品类  1、品类嫁接法  2、品类借接  3、市场细分化  四、取代变换  五、升值发掘  六、空白要求  消费者导向性的市场营销推广,重点在于发觉并达到消费者的要求,从4P而言便是产品研发新产品。而怎么才能发觉消费者的要求呢?这就必须做市场科学研究,例如市场调研和市场洞悉。  如今的市场市场竞争激烈,环境破坏迅速,那样客观性规定公司务必对市场作出迅速的反映。在那样的状况下公司显而易见不太可能在做每一个营._营销创意的来源和途径

如何区分光接入网OLT, ONU, ODN,ONT?_odn是分光器吗-程序员宅基地

文章浏览阅读2w次,点赞24次,收藏202次。光接入网络(点此查看什么是光接入网)就是以光为传输介质的接入网络,替代铜线,用于接入每个家庭.光接入网络。光接入网络一般有三个部分组成: 光线路终端OLT,光网络单元ONU,光分配网络ODN,其中OLT和ONU光接入网络的核心部件。什么是OLT?OLT全称是Optical Line Terminal,光线路终端。OLT是光线路终端,是电信的局端设备,用于连接光纤干线,作用相当于传统通信网中的交换机或路由器,是外网入口和内网出入口的一个设备。放置在局端,最重要的执行功能是流量调度,缓冲区控制,以及提供面向_odn是分光器吗

高速电路中菊花链、fly-by与T点拓扑_菊花链和flyby区别-程序员宅基地

文章浏览阅读1.8w次,点赞8次,收藏72次。  开局一张图,内容……  在高速电路中往往涉及到多个高速存储设备,因此合理的拓扑结构对布局走线非常重要。主流的拓扑模式有菊花链、fly-by与T点。  菊花链是相对最为常见的一种拓扑方式。菊花链拓扑的原理可以解释为:将所有的总线视作拓扑的干路,从处理器引出之后,每个存储设备所需要的总线视为支路,也称为“SUB线”。从微机原理的角度上讲,更像是将所有的总线视作一条“大总线”,每个内存设备需要..._菊花链和flyby区别

推荐文章

热门文章

相关标签