传动网 > 新闻频道 > 产品新闻 > 资讯详情

英伟达Blackwell可支持10万亿参数模型AI训练,实时大语言模型推理

时间:2024-09-05

来源:电子发烧友

导语:英伟达Blackwell是通用计算全栈矩阵的终极解决方案,由多个英伟达芯片组成,包括Blackwell GPU、Grace CPU、BlueField数据处理单元、ConnectX网络接口卡、NVLink交换机、Spectrum以太网交换机和Quantum InfiniBand交换机。

  在近日的Hot Chips 2024大会上,英伟达公布了下一代GPU架构Blackwell的更多细节信息,以及未来的产品路线图。

  英伟达Blackwell是通用计算全栈矩阵的终极解决方案,由多个英伟达芯片组成,包括Blackwell GPU、Grace CPU、BlueField数据处理单元、ConnectX网络接口卡、NVLink交换机、Spectrum以太网交换机和Quantum InfiniBand交换机。

  英伟达称,Blackwell拥有6项革命性技术,可支持多达10万亿参数的模型进行AI训练和实时大语言模型(LLM)推理。

  NVIDIA Blackwell 的技术特点

  NVIDIA Blackwell 架构是NVIDIA于2024年3月在NVIDIA GTC大会上发布的全新架构,是NVIDIA继Hopper架构之后推出的全新架构,旨在推动生成式AI和加速计算领域的发展。Blackwell架构拥有六项革命性技术,这些技术共同构成了其强大的计算能力和高效性。

  一、它是全球最强大的芯片,拥有2080亿个晶体管,这确保了芯片具有极高的计算能力和复杂性。它采用台积电4纳米工艺制造,提高了芯片的集成度,降低了功耗和发热量。配备192GB的HBM3E显存,极大提升了芯片的数据处理能力和效率。

  第二代Transformer引擎,结合Blackwell Tensor Core技术和TensorRT-LLM及NeMo Megatron框架中的英伟达先进动态范围管理算法,Blackwell通过新的4位浮点AI支持双倍的计算和模型大小推理能力。

  第五代NVLink,为每个GPU提供了突破性的1.8TB/s双向吞吐量,确保最复杂LLM之间多达576个GPU之间的无缝高速通信。

  四、RAS引擎,Blackwell支持的GPU包含一个专用引擎,实现可靠性、可用性和服务性。此外,Blackwell架构还增加了芯片级功能,利用基于AI的预防性维护进行诊断和预测可靠性问题,从而延长系统正常运行时间并提高大规模部署AI的弹性。

  五、安全人工智能,先进的机密计算功能可在不影响性能的情况下保护AI模型和客户数据,并支持新的本机接口加密协议,进一步增强了芯片的安全性。

  六、解压缩引擎,专用解压缩引擎支持最新格式,加快数据库查询,提供数据分析和数据科学的最高性能。

  生态系统方面,Blackwell不仅是系统的核心芯片,更是一个全新的平台。它涵盖了从CPU和GPU计算到用于互连的不同类型的网络,是通用计算全栈矩阵的终极解决方案。

  Blackwell架构将助推数据处理、工程模拟、电子设计自动化、计算机辅助药物设计、量子计算和生成式AI等领域实现突破。

  NVIDIA已经展示了基于Blackwell架构的GPU GB200 NVL72等产品,该产品专为万亿参数AI而设计,对大语言模型(LLM)推理性能提升高达30倍。随着AI模型尺寸的增加,在多个GPU上拆分工作负载势在必行。而Blackwell足够强大,可以在一个GPU中处理专家模型。

  相比Hopper架构的优势

  NVIDIA Blackwell架构相比其上一个NVIDIA Hopper架构具有多方面的优势。NVIDIA Hopper架构是NVIDIA在2022年推出的GPU架构,该架构旨在取代之前的NVIDIA Ampere架构,并为新一代工作负载提供强大的加速计算平台。

  Hopper架构采用了先进的台积电4N工艺制造,集成了超过800亿个晶体管,这为高性能计算提供了坚实的基础。

  Hopper架构通过Transformer引擎推进了Tensor Core技术的发展,旨在加速AI模型训练。Transformer引擎能够应用混合的FP8和FP16精度,以大幅加速Transformer模型的AI计算。

  与上一代相比,Hopper架构在TF32、FP64、FP16和INT8精度的每秒浮点运算(FLOPS)上提高了3倍。这种性能提升使得Hopper在处理大规模AI模型时更加高效。

  Hopper架构引入了第四代NVLink技术,可通过NVIDIA DGX和HGX服务器扩展多GPU输入和输出(IO),每个GPU的双向传输速率可达900GB/s,比PCIe 5.0的带宽高7倍。

  第三代NVIDIA NVSwitch支持SHARP网络计算技术,打破了该技术只能通过InfiniBand提供的传统限制。这使得Hopper架构在处理大规模HPC和AI工作负载时能够实现更高的互连效率和通信带宽。

  相比较而言,晶体管数量与计算能力方面,Blackwell架构GPU拥有2080亿个晶体管,比Hopper架构的GPU多出显著数量,这直接提升了其计算能力。

  Blackwell架构的单个芯片计算能力达到了20 petaFLOPS,这使其在处理大规模AI模型时具有更高的实时性能和效率。

  内存与带宽方面,Blackwell架构配备了更大的HBM3e内存(如192GB)和更高的显存带宽(如8TB/s),相比Hopper架构,这进一步增强了数据处理和传输的速度。

  写在最后

  NVIDIA Blackwell架构相比其上一个架构在性能、计算能力、技术创新、特性增强以及生态系统与应用拓展等方面均具有显著优势。应用方面,Blackwell架构将助推数据处理、工程模拟、电子设计自动化、计算机辅助药物设计、量子计算和生成式AI等领域实现突破。

中传动网版权与免责声明:

凡本网注明[来源:中国传动网]的所有文字、图片、音视和视频文件,版权均为中国传动网(www.chuandong.com)独家所有。如需转载请与0755-82949061联系。任何媒体、网站或个人转载使用时须注明来源“中国传动网”,违反者本网将追究其法律责任。

本网转载并注明其他来源的稿件,均来自互联网或业内投稿人士,版权属于原版权人。转载请保留稿件来源及作者,禁止擅自篡改,违者自负版权法律责任。

如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。

关注伺服与运动控制公众号获取更多资讯

关注直驱与传动公众号获取更多资讯

关注中国传动网公众号获取更多资讯

最新新闻
查看更多资讯

热搜词
  • 运动控制
  • 伺服系统
  • 机器视觉
  • 机械传动
  • 编码器
  • 直驱系统
  • 工业电源
  • 电力电子
  • 工业互联
  • 高压变频器
  • 中低压变频器
  • 传感器
  • 人机界面
  • PLC
  • 电气联接
  • 工业机器人
  • 低压电器
  • 机柜
回顶部
点赞 0
取消 0