浅谈AI芯片和架构设计

文:华为公司企业业务部MKT AI解决方案总监 黄玖红2019年第一期

前言

    根据华为GIV(HuaweiGlobalIndustryVision)预测,2025年全球新增数据量预计180ZB,将远超人类处理能力,95%的数据将依赖AI处理。数据是企业重要资产,借助人工智能手段进行更高效的数据分析、处理、决策,提升企业生产效率和智能化水平,将成为企业经营的核心任务之一。预计2025年,全球企业对AI的采用率将达86%,AI的崛起将深刻改变企业的业务模式和价值创造模式。

    60年来人工智能发展虽几起几落,却始终在新兴ICT信息技术驱动下不断取得新的突破。但近些年,CPU性能未能呈现如摩尔定律预测的定期翻倍,业内普遍观点认为摩尔定律已经失效,能否开发出具有超高运算能力、符合市场需求的芯片,已成为人工智能领域可持续发展的重要因素。

从AlphaGo战胜李世石说起

    2016年谷歌AlphaGo与围棋世界冠军李世石上演“世纪人机大战”,将人工智能的关注度推到了前所未有的高度。人工智能机器人阿尔法狗以4比1的总比分战胜职业九段棋手李世石。此次人机大战,谷歌DeepMind公司共消耗了1202颗CPU和176颗GPU的计算资源,阿尔法狗的浮点运算能力是1998年IBM深蓝战胜象棋冠军时的3万倍之多。

AI芯片

(图一:AlphaGo与李世石对弈)

    但从能效的角度,AlphaGo真的战胜人类了吗?我们从以下方面分析。成年男性每日需要能量大约2550千卡,1千卡(KCAL)=4.184千焦耳(KJ),如果我们把卡路里换算成焦耳大概是1000多万焦耳,下棋1小时,李世石大概消耗0.7兆焦耳。AlphaGo与李世石下棋用了1202颗CPU,176颗GPU,以1颗CPU100W,1颗GPU200W,1小时,阿尔法狗需要,1瓦时=3600焦耳,共消耗559兆焦耳,这相当于李世石用的能耗大约是AlphaGo能耗的八百分之一。

    之后,谷歌的DeepMind团队对硬件进行改进,将运算单元从CPU换算成GPU,同样级别比赛,阿尔法狗消耗虽下降了12倍,但仍然是人类能耗的67倍之多。

    因此,我们看到,GPU在性能和效率上,相比CPU有很大的提升,但它仍更适合大规模分布式训练场景。随着5G、物联网、云和超宽带信息技术的发展,智能将延伸到每一台智能设备和终端,包括各种形式边缘计算,以及IoT物联网、消费类智能终端,为了实现极致的用户体验,这类设备往往在最靠近用户的地方,需要长时间待机,对功耗和空间的约束要是非常高的,显然GPU无法满足这类场景的需求。

    而人工智能的本质是帮助各行各业提高生产效率,产生社会和商业价值。若像AlphaGo一样,依赖庞大且昂贵的计算资源实现一个简单的场景,实则大材小用。从我们对AI需求的理解来看,人工智能芯片的研发,从一开始就要考虑对全场景智能需求的覆盖,无论是云、边缘、还是终端;无论是深度学习训练,还是推理,或者两者兼具,而不是一种芯片包打天下。从人工智能芯片发展历程来看,也是在逐步适应这个过程。

重新定义AI芯片

    人工智能芯片经历了从CPU->GPU->FPGA->AI芯片的发展历程。

    阿尔法狗的首次战胜人类可谓是费了“洪荒之力”,本质上是基于冯.诺依曼计算架构所决定的。于是具备强大并行计算能力与浮点计算能力GPU一度成为深度学习模型训练和推理的标配。相比CPU,GPU提供更快的处理速度,需要更少的服务器投入和更低的功耗,成为近些年来深度学习训练的主流模式。

    但GPU无法满足所有场景深度学习计算任务。除前面所述,再举个例子,比如L4自动驾驶,需要识别道路、行人、红绿灯等状况,如果基于CPU计算,时延无法满足要求,恐怕车翻到河里还没发现前方是河;如果用GPU计算,虽然时延可以满足要求,但是功耗大,汽车电池无法长时间运行。此外,1块GPU卡少则万元多则近10万人民币,无法普及大多数普通消费者。

    本质上,GPU不是专门针对AI算法开发的ASIC,人们亟需找到既能解决深度学习训练和推理的运算能力,又能解决功耗和成本问题的芯片,FPGA芯片在这样背景下诞生。

    FPGA可编程的阵列(Field-ProgrammableGateArray),作为ASIC领域中的一种半定制电路而出现,本质上是基于无指令,无需共享内存的体系架构创新,满足了特定场景的需求。

FPGA主要通过以下手段提升性能、降低时延;减少能耗、降低成本:

通过烧入可配置、可反复刷写的FPGA配置文件来定义大量门电路和存储器间的连线。

通过配置文件,将FPGA变成不同的处理器,支持各种不同的深度学习计算任务。

FPGA中的寄存器和片上内存,属于各自的控制逻辑,无需不必要的冲裁和缓存。

    根据研究发现,对于大量的矩阵运算GPU计算能力远高于FPGA,但是由于FPGA体系结构特点,非常适用于低时延、流式计算密集型任务处理。在类似海量并发的云端推断,比如语音云识别场景,FPGA相比GPU具备更低计算时延的优势,能够提供更佳的消费者体验。

    但是,FPGA芯片本质上是通过预编程的方法来提升性能的,AI需要处理的内容往往是大量非结构化数据,例如视频、图像等,这类数据很难通过预编程的方法得到满意的结果。相反,需要通过人工智能芯片,进行大量样本训练和推理交互,形成算法模型后,集成了AI芯片和算法的智能设备,才能具备智能推理能力。

    无论是GPU还是FPGA,虽然都可以运行AI算法,但均美中不足,GPU本质上不是专门针对AI算法开发的ASIC,功耗大、成本高;FPGA虽然架构有一定的创新,但是预编程繁琐。从严格意义上来讲,都不是AI芯片。那么,什么是AI芯片呢?我们知道,人工智能的深度学习算法的数据运算特征,需要芯片具备比传统计算性能高出2-3个数量级。综上分析,我们尝试给出如下定义:

    基于ASIC(专用集成电路),可以基于软件灵活定义和高度定制的专用芯片。一方面,能够进行深度学习神经网络运算;另一方面,基于硬件计算架构的创新,提升深度学习运算效率,达到最佳能效(TOPS/W)的芯片,才可以称之为AI芯片。

值得肯定的是,FPGA大胆迈出了人工智能芯片硬件架构创新的第一步,即ASIC专用集成电路模式。

AI芯片依赖架构创新

    如上分析,FPGA之所以比CPU,GPU能耗低,本质上是无指令,无需共享内存的体现结构带来的福利。在探讨架构创新之前,我们来分析是什么原因造成了CPU/GPU无法满足人工智能的需求。

    目前市面上绝大多数AI芯片采用类CPU架构(冯.诺依曼架构的局部优化),本质上还是“计算优先”模式,比如通过扩展并行计算单元来提升芯片处理性能。但人工智能深度学习神经网络算法训练,多个计算单元往往需要频繁的存储器读写操作,而类CPU架构本质上还是共享存储模式,无法根本解决冯.诺依曼计算架构共享内存模式导致的存储性能瓶颈问题,又称“内存墙”,类CPU架构示意如下:

AI芯片

(图二:类CPU芯片架构)

    深度学习神经网络数据运算特征表现为:高并发、高耦合,以及“高并发+高耦合”的“三高”特征。算法处理需要进行:大量的计算、大量的并行处理、低延迟的操作要求。以训练为例,训练过程涉及大量数据存储,对内存数量、访问内存的带宽和内存管理方法的要求都非常高。要求芯片具备一定精度的浮点数运算能力,且同时支持正向和反向的计算过程和多次迭代。其次,训练过程需要不断调整神经网络中的参数(权重),包括参数的多次输入和多次读取,以及复杂的数据同步要求,整个在线训练过程参数的频繁操作,对存储器带来非常巨大的挑战。

    本质上,冯.诺依曼计算架构是摩尔定律在人工智能场景下失效的根因。如何通过硬件体系架构的创新,克服“存储墙”瓶颈,实现人工智能最佳的深度学习算法运算效率,成为人工智能芯片架构创新和发展的方向。

AI芯片架构设计需要符合以下几点要求:

    符合深度学习神经网络运算的基本需求,无论是训练还是推断,以及两者的协同,在数据精度、可伸缩、可扩展能力以及功耗效率方面要满足实际商用场景要求。

    支持“近数据计算”,通过硬件架构设计,拉近运算和存储的距离,减少数据搬移次数,降低能耗。比如支持神经网络运算放在片上存储器进行计算。

    支持灵活伸缩和集群,支持大规模分布式并行AI训练。比如并行运算单元内部通过超带宽网络进行互联。

    支持软件定义AI芯片,满足绝大多数复杂AI的算法的个性化定制和组合应用,通过广泛的应用达到边际效益,降低AI芯片成本。

华为达芬奇AI芯片架构介绍

    华为公司顺应趋势,基于多年的芯片研发经验,于2018年10月,推出全球独创的达芬奇人工智能芯片架构,并基于此推出全栈全场景AI解决方案和首批Ascend(昇腾)系列芯片。值得一提的是,达芬奇架构针对AI运算特征而设计,以高性能3DCube计算引擎为基础,实现了算力和能耗比(能效)的大幅提升。从云、边缘、端独立的和协同的AI实际需求出发,从极致低功耗,到极致大算力的AI场景,为云、边、端之间的算法协同、迁移、部署、升级和运维,提供了统一架构底层核心支撑,大大降低了人工智能算法开发和迭代的门槛,降低企业人工智能部署和商用成本。可以说,统一、可扩展的达芬奇AI芯片架构,为华为“用得起”、“用得好”、“用得放心”的全栈全场景普惠AI战略,提供了强大的支撑。

达芬奇架构如下:

AI芯片

(图三:华为达芬奇芯片架构)

    不同于传统冯·诺伊曼架构,数据从处理单元外的存储器提取,处理完之后再写回存储器。达芬奇架构设计一开始就考虑克服冯·诺伊曼架构导致的“内存墙”问题,在类CPU架构基础(本质是计算优先)上,围绕降低存储复杂度做了进一步的创新优化(存储优先)。如图三所示,一方面,通过多核堆叠实现并行计算能力扩展;另一方面,通过设计了片上的存储器(Cache/Buffer),拉近Cube运算和存储的距离,减少对存储器(DDR)的访问,缓解冯·诺伊曼“瓶颈”问题;此外,运算与外部存储之间,设计了高带宽的片外存储器(HBM),克服计算资源共享存储器读写时的访问速度限制。同时,为了支持更大规模云侧神经网络训练,设计了超高带Mesh网络(LSU)实现多个cube扩展片上的互联。

总结起来,达芬奇架构具备三大特征:

统一架构

支持几十毫瓦到几百瓦的全场景AI系列芯片。(参见图四)

可扩展计算

每个AIcore,在一个时钟周期可以进行完成4096次MAC运算

弹性多核堆叠,可扩展Cube:16x16xN,N=16/8/4/2/1

支持多种混合多精度(int8/int32/FP16/FP32),支持训练和推理场景的数据精度要求

集成了张量、矢量、标量多种计算单元

可扩展内存

专用的和分布的,显式控制的内存分布设计

4TByte/sL2Buffer缓存

1.2TByte/sHBM高带宽内存

可扩展的片上互联

片上超高带宽Mesh网络(LSU)

    基于达芬奇创新架构,华为首批推出7nm的昇腾910(Ascend-Max)以及12nm的昇腾310(Ascend-Mini)。Ascend910芯片是目前全球已发布的单芯片计算密度最大的芯片。支持云侧分布式大规模训练场景,若是集齐1024个昇腾910,会出现迄今为止全球最大的AI计算集群,性能达到256个P,不管多么复杂的模型都能轻松训练。

Ascend310芯片则是于边缘计算推理场景高效算力和和低功耗AISoC。

    基于达芬奇架构,华为公司还规划了适用在蓝牙耳机、智能手机、可穿戴设备的Ascend昇腾芯片系列(图四:Nano、Tiny、Lite),未来将以IP方式跟其他芯片结合在一起服务于各个智能产品。目前市场面的AI芯片通常是云端训练、边缘推理两款芯片,华为之所以考虑Lite等,核心原因是一些AI应用场景需要非常低的功耗。

    此外,达芬奇AI芯片架构考虑了软件定义AI芯片的能力。CANN(图四所示)—也就是芯片高度自动化的算子开发工具,是为神经网络定制的计算架构。CANN可以提升3倍的开发效率。除了效率之外,也兼顾算子性能,以适应人工智能应用的迅猛发展。

AI芯片

(图四:华为全栈全场景AI架构)

    在设计方面,Ascend昇腾芯片系列突破了功耗、算力等约束,实现了能效比的大幅提升(参见图五)。以Ascend910芯片为例,半精度(FP16)运算能力为256TFLOPS,比NVIDIA的TeslaV100要高一倍,整数精度(INT8)512TOPS,最大功耗仅350W;昇腾310芯片主打极致高效计算和低功耗,半精度(FP16)运算能力8TFLOPS,整数精度(INT8)16TOPS,最大功耗仅为8W,310的TOPS/W(能效)是英伟达同类芯片NVP4的2倍之多。

AI芯片

(图五:华为Ascend昇腾系列芯片横跨全场景实现最优TOPS/W)

    需要说明,华为不直接向第三方提供芯片,所以华为与芯片厂商,没有直接竞争。华为提供硬件和云服务,围绕芯片为基础,开发AI加速模组,AI加速卡,AI服务器,AI一体机,以及面向自动驾驶和智能驾驶的MDC(Mobile-DC)进行销售。

达芬奇架构背后的思考

    与以往信息化不同,AI带来智能化的目的,是降低企业生产成本,提高效率,这意味着AI应用将超越信息化,深入到企业生产系统,一旦进入生产系统,就必须跟线下、本地各种场景相结合。因此,这也是为何达芬奇架构设计的开始,就考虑了AI超动态、超宽范围需求的目的。

但是,华为达芬奇架构也只是站在巨人的肩膀上做了一定的微创新,仍面临巨大的技术难点和待攻克的难题:

    虽然芯片制造工艺已处于纳米级,但在类脑、基因、抗癌新药研制等更复杂的人工智能领域,集成密度的进一步提高,将导致原子层电离泄露问题。比如,包括业界巨头纷纷发力量子学,也正因为于此。

虽然缓解冯·诺伊曼“瓶颈”问题成为共识,但与计算核心紧耦合的片上存储器的唯一方案SRAM,其容量仅为兆级。存储器件工艺本身的创新仍需努力。

    存储优先模式,需要考虑多个片上存储的封装技术,以及多个片上存储的管理,对软件的复杂性要求进一步提升。

    未来,在类脑智能领域(极限情况,AlphaGo消耗的能量与人类相同),能耗要求比最先进CMOS器件还要低几个数量级。

    因此,我们认为,华为在人工智能芯片技术的发展上取得了初步成果,但是AI芯片和架构设计,特别是神经网络芯片所面临的工程领域的挑战远未停止。

中传动网版权与免责声明:

凡本网注明[来源:中国传动网]的所有文字、图片、音视和视频文件,版权均为中国传动网(www.chuandong.com)独家所有。如需转载请与0755-82949061联系。任何媒体、网站或个人转载使用时须注明来源“中国传动网”,违反者本网将追究其法律责任。

本网转载并注明其他来源的稿件,均来自互联网或业内投稿人士,版权属于原版权人。转载请保留稿件来源及作者,禁止擅自篡改,违者自负版权法律责任。

如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。

伺服与运动控制

关注伺服与运动控制公众号获取更多资讯

直驱与传动

关注直驱与传动公众号获取更多资讯

中国传动网

关注中国传动网公众号获取更多资讯

热搜词
  • 运动控制
  • 伺服系统
  • 机器视觉
  • 机械传动
  • 编码器
  • 直驱系统
  • 工业电源
  • 电力电子
  • 工业互联
  • 高压变频器
  • 中低压变频器
  • 传感器
  • 人机界面
  • PLC
  • 电气联接
  • 工业机器人
  • 低压电器
  • 机柜
回顶部
点赞 0
取消 0
往期杂志
  • 2024年第1期

    2024年第1期

    伺服与运动控制

    2024年第1期

  • 2023年第4期

    2023年第4期

    伺服与运动控制

    2023年第4期

  • 2023年第3期

    2023年第3期

    伺服与运动控制

    2023年第3期

  • 2023年第2期

    2023年第2期

    伺服与运动控制

    2023年第2期

  • 2023年第1期

    2023年第1期

    伺服与运动控制

    2023年第1期