昇腾AI异构计算架构CANN——高效使能AI原生创新
昇腾CANN 2024-10-21 12:01:01 阅读 52
异构计算与人工智能的关系是什么?昇腾AI异构计算架构CANN是什么?有哪些主要特点?开发者如何利用CANN的原生能力进行大模型创新,构筑差异化竞争力?带着这些问题,我们来认识昇腾AI异构计算架构——CANN。
1 异构计算与人工智能的关系
近年来,人工智能正在以惊人的速度融入到日常生活的众多方面,能够理解语音的智能助手、能够识别人脸的摄像头,能够检测路况的自动驾驶汽车…无论哪种,要想让机器拥有人类技能,就需要搭建一个像人类大脑一样的“神经网络”,我们称作AI算法或模型,并用大量的数据训练,直至它变得足够聪明,并能够基于经验对新的任务做出反馈。这个过程依赖高度复杂的算法和巨大的计算量,以GPT-3为例,其参数量已经达到1750亿、样本大小有45TB之多,单次训练时间要以月为单位,如何提高计算效率是人工智能要解决的核心问题。
在人工智能计算中,涉及较多的矩阵或向量的乘法和加法,CPU这类通用处理器的硬件特性决定了它处理此类计算需求的效率非常低,因此在现实应用中,主要利用擅长大规模并行计算任务的AI加速器完成,譬如NPU(昇腾AI处理器)等专用处理器。由于计算的多样性,在这些加速器内部存在非常多不同架构的计算单元,如scalar/vector/cube,就好比规划厨房空间时,针对不同的厨具设计不同的收纳空间,这样不同形状和大小的盘子、杯子就能放到各自专用的位置,从而最大限度地利用空间。
异构计算是指在同一计算系统集成不同类型或架构的处理单元,以便更有效的执行不同类型的任务。为充分利用这些异构算力,就需要构建一套统一的编译优化和编程接口体系,实现底层多样算力与上层框架/算法的解耦、互通,从而发挥不同处理器的优势,通过协同工作,来提高整个系统的性能、能效和灵活性。
2 昇腾AI异构计算架构CANN是什么
CANN(Compute Architecture for Neural Networks)是华为针对AI场景推出的异构计算架构,对上支持PyTorch、TensorFlow以及昇思MindSpore等业界主流AI框架,对下使能昇腾AI处理器,发挥承上启下的关键作用,是提升昇腾AI处理器计算效率的关键平台。同时针对多样化应用场景,提供高效易用的编程接口,支持用户快速构建基于昇腾平台的AI应用和业务。
3 异构计算架构CANN的技术优势
3.1 极致性能
CANN从2018年的第一个版本发展至今,经过多个版本的迭代,无论从计算加速角度,还是编程易用性角度来说,都积累了非常多的技术优势。
如何借助CANN让AI任务在异构硬件上加速计算?
我们知道,AI任务的逻辑核心是AI算法,就是文章开始提到的那个类似人类大脑一样的“神经网络”。这个神经网络是一张巨大的,有成千上万个节点连接而成的庞大计算图,直接递交给异构硬件的话,运行效率可想而知,就需要通过CANN对整个计算图进行编译优化。CANN会把计算图做加工和精简,消融掉若干节点,大图变成若干子图。
CANN根据各异构硬件上擅长处理的计算任务类型,将各计算子图下发到CPU、NPU、甚至是NPU内部更小的异构单元上执行。多任务执行过程时,由于图和图之间的依赖关系,顺序执行必然会因为任务之间的互相等待带来性能损耗,CANN通过类似工厂流水线的方式让计算任务自动并行起来,这样整个工厂的机器就能满负荷运转起来,各异构资源便能“物尽其用”。
了解更详细的CANN计算图优化技术,可参考前期发布的系列技术博客:
GE图引擎:深度解读昇腾CANN计算图优化技术,提升算法计算效率GE图引擎:深度解读昇腾CANN多流并行技术,提高硬件资源利用率GE图引擎:深度解读昇腾CANN内存复用技术,降低网络内存占用GE图引擎:深度解读昇腾CANN模型下沉技术,提升模型调度性能GE图引擎:深度解读昇腾CANN小shape算子计算优化技术,进一步减少调度开销
除了针对计算图的优化,CANN更是将计算图中的节点(即AI算子)适配昇腾硬件进行了深度优化,并预置到内部的加速库中,组成了能够让AI任务飞速执行的弹药库。这其中不仅有包含常用深度学习算法计算类型的NN(NeuralNetwork)算子库、能够提供高性能媒体数据处理能力的DVPP(Digital Vision Pre-Processing)算子库、分布式训练中提供卡间高效数据传输的HCCL(Huawei Collective Communication Library)算子库,更有覆盖Transformer网络大模型结构泛化的高性能融合算子库。
3.2 极简易用
在编程易用性方面,CANN能够端到端使能从算子到模型算法的开发及部署,帮助开发者快速构建基于昇腾平台的AI应用及业务。
从算法创新角度来说,CANN广泛支持业界主流深度学习框架,包括昇思MindSpore、PyTorch、TensorFlow 、PaddlePaddle、计图Jittor等等,支持从GPU生态低成本迁移至昇腾生态,开发者可以选择继续使用原有框架和算法,仅切换底层硬件即可;可以选择迁移到华为开源的昇思MindSpore框架获得昇腾全栈能力;也完全可以基于CANN进行原生开发,目前Pytorch已支持昇腾设备接入,意味着开发者可直接在昇腾设备上使用PyTorch原生算法开发。
在算法迁移或开发过程中,如果发现某些算子性能达不到预期要求,或者想针对新的业务场景开发新功能,就需要进行算子开发。在这个维度上,CANN提供了面向算子开发场景的昇腾Ascend C编程语言,它原生支持C/C++编程规范,通过多层接口抽象、并行编程范式、孪生调试等技术,极大提高了算子的开发效率,帮助AI开发者低成本完成算子开发和模型调优部署。特别在大模型场景下,利用Ascend C,能将Transformer网络中融合算子的开发周期从2人月缩短到2人周,为大模型开发和创新创造了便利条件。
从AI应用开发角度来说,CANN提供了AscendCL编程接口,它是一套用于开发AI推理应用的C语言API库,兼具运行时资源管理、模型加载与执行、图像预处理等能力,能够让开发者轻松解锁图片分类、目标识别等各类AI应用。AscendCL屏蔽了昇腾硬件差异,开发者只需要掌握一套API便可以全面应用于昇腾全系列硬件,并且在未来CANN版本升级的情况下,依然可以做到后向全面兼容,且运行效率不打折扣!
3.3 架构开放
2021年,CANN开放应用开发、算子开发、图开发接口,并在昇腾社区例行发布社区版本,包含最新版本特性供开发者提前使用。
2023年,CANN开放Runtime运行时,让开发者可以直接调用NPU内部资源,自主构筑极致性能大算子和加速库。
2024年,随着大模型的飞速演进,AI越来越难被普通的开发者和组织驾驭,为更进一步提升AI计算效率,支撑开发者的算法创新诉求,CANN进一步开放,为开发者提供了更加丰富、灵活的原生开发工具,支持开发者原生创新,构筑差异化优势。
借助CANN开放资源,开发者可以更深入地调用运行时能力,释放硬件性能;通过Ascend C接口类库及算子加速库,获得原生开发能力;通过集合通信库,自定义通信策略,获得更高的通信性能;通过GE图引擎接口,自定义图结构,获得最优图性能。
来源:https://www.hiascend.com/software/cann
了解CANN开放能力的更多详情,可参考前期发布的系列技术博客:
Ascend C 2.0全新升级,支撑大模型融合算子高效开发一文了解AOL算子加速库HCCL——昇腾高性能集合通信库HCCL集合通信算法开发Hello World示例(超详细)
4 开发者计划&生态进展
4.1 开发者计划
在开发者培养方面,CANN针对不同层次开发者,提供了全面的赋能体系,从而支持了个人、高校&科研院所、企业伙伴等百万开发者一起学AI、用AI。
在入门阶段,CANN提供学习文档、认证课程、系列教材供开发者自主学习,开展线上线下CANN训练营活动牵引开发者学习,还联合高校老师开展教学实践赋能学生群体。
https://www.hiascend.com/zh/document
在实践阶段,CANN提供丰富的应用案例供开发者体验、各种类型的众智和竞赛任务给予开发者开展实践,开发者可登陆昇腾社区官网学习体验。
在研究创新阶段,成立昇腾CANN学术基金鼓励创新成果孵化,同时通过技术行等专项支持大力扶持企业伙伴,探讨与解决关键技术问题,使能伙伴商业成功。
此外,在
声明
本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。