英伟达今日在2023台北电脑展大会上发布了多项重磅消息,其中最引人注目的是其Grace Hopper超级芯片已经全面投产。这些芯片是英伟达新推出的DGX GH200人工智能超级计算平台和MGX系统的核心组件,它们专为处理海量的生成型人工智能任务而设计。英伟达还宣布了其新的Spectrum-X以太网网络平台,专为人工智能服务器和超级计算集群而优化。
Grace Hopper超级芯片是英伟达开发的基于Arm架构的CPU+GPU集成方案,它将72核的Grace CPU、Hopper GPU、96GB的HBM3和512 GB的LPDDR5X集成在同一个封装中,共有2000亿个晶体管。这种组合提供了CPU和GPU之间惊人的数据带宽,高达1 TB/s,为某些内存受限的工作负载提供了巨大的优势。
DGX GH200人工智能超级计算平台是英伟达针对最高端的人工智能和高性能计算工作负载而设计的系统和参考架构,目前的DGX A100系统只能将八个A100 GPU联合起来作为一个单元,考虑到生成型人工智能的爆炸式增长,英伟达的客户迫切需要更大、更强大的系统,DGX GH200就是为了提供最大的吞吐量和可扩展性而设计的,它通过使用英伟达的定制NVLink Switch芯片来避免标准集群连接选项(如InfiniBand和以太网)的限制。
DGX GH200的细节还不太清楚,但已确认英伟达使用了一种新的NVLink Switch系统,包含36个NVLink开关,将256个GH200 Grace Hopper芯片和144TB的共享内存连接成一个单元,英伟达CEO黄仁勋表示,GH200芯片为“巨型GPU”。这是英伟达第一次使用NVLink Switch拓扑结构来构建整个超级计算机集群,英伟达称这种结构提供了比前一代系统高出10倍的GPU到GPU和7倍的CPU到GPU的带宽。它还设计了提供比竞争对手高出5倍的互连功耗效率和高达128 TB/s的对分带宽。该系统有150英里(IT之家备注:约241.4公里)的光纤,并且重达4万磅,但是呈现出来就像一个单一的GPU。英伟达表示,256颗Grace Hopper超级芯片将DGX GH200的“AI性能”提升到了exaflop(一百万万亿次)。
英伟达将把DGX GH200的参考蓝图提供给其主要客户谷歌、Meta和微软,并且还将把该系统作为云服务提供商和超大规模数据中心的参考架构设计。英伟达自己也将部署一个新的英伟达Helios超级计算机,由四个DGX GH200系统组成,用于自家的研发工作。这四个系统共有1024个Grace Hopper芯片,并且用英伟达的Quantum-2 InfiniBand 400 Gb/s网络连接起来。
英伟达DGX面向最高端的系统,HGX系统面向超大规模数据中心,而新的MGX系统则处于这两者之间,而且DGX和HGX将与新的MGX系统共存。英伟达的OEM合作伙伴在设计人工智能中心的服务器时面临着新的挑战,会降低设计和部署的速度。英伟达的新MGX参考架构旨在加快这一过程,提供了100多种参考设计。
MGX系统由模块化设计组成,涵盖了英伟达的CPU和GPU、DPU和网络系统的各个方面,但也包括了基于常见的x86和Arm处理器的设计。英伟达还提供了空冷和液冷的设计选项,以适应各种应用场景。华硕、技嘉、永擎和和硕都将使用MGX参考架构来开发将在今年晚些时候到明年初推出的系统。
至于新的Spectrum-X网络平台,英伟达称它为“专为人工智能而打造的高性能以太网”网络平台。Spectrum-X设计采用了英伟达的51 Tb/s Spectrum-4 400 GbE以太网交换机和英伟达Bulefield-3 DPU,搭配软件和SDK,使开发人员能够根据AI工作负载的独特需求调整系统。
与其他基于以太网的系统相比,英伟达称Spectrum-X是无损的,从而提供了更好的QoS和延迟。它还具有新的自适应路由技术,这在多租户环境中特别有用。