无尘室设备装卸搬家移入定位
2022-03-23 来自: 亚瑟半导体设备安装(上海)有限公司 浏览次数:190
无尘室设备装卸搬家移入定位的亚瑟报道:虽然英伟达半导体设备搬运以GPU闻名世界,但他们在CPU上的表现也备受关注。在昨日举办的GTC 2022上,Nvidia 首席执行官 Jensen Huang 终于分享了有关公司 Arm 努力的更多细节,因为他推出了公司新的 144 核 Grace CPU Superchip,这是该公司半导体设备搬运专为数据中心设计的、基于Arm架构的CPU 。
据半导体设备搬运介绍,这个基于 Neoverse 的系统支持 Arm v9,可以把两个CPU与 Nvidia 新品牌的 NVLink-C2C 互连技术融合在一起。Nvidia 声称 Grace CPU Superchip 在 SPEC 基准测试中提供的性能比其自己的 DGX A100 服务器中的两个上一代 64 核 AMD EPYC 处理器高出 1.5 倍,并且是当今半导体设备搬运服务器芯片的两倍。总体而言,Nvidia 表示,Grace CPU Superchip 将于 2023 年初出货,将成为市场上处理器,适用于超大规模计算、数据分析和科学计算等广泛的应用。鉴于我们对 Arm 路线图的了解,Hopper CPU Superchip基于 N2 Perseus 平台,这是半导体设备搬运支持 Arm v9 的平台。该平台采用 5nm 设计,支持所有半导体设备搬运连接技术,如 PCIe Gen 5.0、DDR5、HBM3、CCIX 2.0 和 CXL 2.0,比 V1 平台提供高达 40% 的性能。此外,Nvidia 还分享了有关 Grace Hopper Superchip 的新细节,这是其之前发布的 CPU+GPU 芯片. Nvidia 还宣布了其新的 NVLink 芯片到芯片 (C2C) 接口,这是一种支持内存一致性的芯片到芯片和芯片到芯片互连。NVLink-C2C 可提供高达 25 倍的能效,比 Nvidia 目前使用的 PCIe 5.0 PHY 的面积效率高 90 倍,支持高达 900 GB/s 或更高的吞吐量。该接口支持 CXL 和 Arm 的 AMBA CHI 等行业标准协议,并支持从基于 PCB 的互连到硅中介层和晶圆级实现的各种连接。令人惊讶的是,Nvidia 现在允许其他供应商将该设计用于他们自己的小芯片。此外,Nvidia 宣布将支持新的 UCIe 规范。让我们深入了解细节。在我们了解新的 Grace CPU Superchip之前,您需要快速回顾一下半导体设备搬运初称为Grace CPU的产品,但该公司没有分享太多细粒度的细节。Nvidia 现在已将半导体设备搬运尝试的名称更改为 Grace Hopper Superchip。Grace Hopper Superchip 在一个载板上有两个不同的芯片,一个 CPU 和一个 GPU。我们现在知道 CPU 有 72 个内核,使用基于 Neoverse 的设计,支持 Arm v9,并与 Hopper GPU 配对。这两个单元通过 900 GBps NVLink-C2C 连接进行通信,提供 CPU 和 GPU 之间的内存一致性,从而允许两个单元同时访问 LPDDR5X ECC 内存池,据称带宽比标准系统提高了 30 倍。Nvidia 初没有公布设计中使用的 LPDDR5X 数量,但在这里我们可以看到该公司现在声称拥有“600GB 内存 GPU”,其中肯定包括 LPDDR5X 内存池。我们知道 LPDDR5X 每个封装的高容量为 64GB,这意味着 CPU 配备了高达 512GB 的 LPDDR5X。同时,Hopper GPU 通常具有 80GB 的 HBM3 容量,使我们接近 Nvidia 的 600GB 数字。让 GPU 访问该数量的内存容量可能会对某些工作负载产生变革性影响,尤其是对于经过适当优化的应用程序。今天的公告涵盖了 Grace CPU Superchip,它基于 Grace Hopper CPU+GPU 设计,但使用第二个 CPU 封装而不是 Hopper GPU。这两个 72 核芯片也通过 NVLink-C2C 连接进行连接,提供一致的 900 GB/s 连接,将它们融合为一个 144 核单元。此外,基于 Arm v9 Neoverse 的芯片支持 Arm 的 Scalable Vector Extensions (SVE),这是一种性能提升的 SIMD 指令,其功能类似于 AVX。Grace CPU Superchip 使用 Arm v9,它告诉我们该芯片使用 Neoverse N2 设计. Neoverse N2 平台是 Arm 支持新发布的 Arm v9 扩展(如 SVE2 和内存标记)的 IP,其性能比 V1 平台高出 40%。N2 Perseus 平台采用 5nm 设计,支持 PCIe Gen 5.0、DDR5、HBM3、CCIX 2.0 和 CXL 2.0。Perseus 设计针对每功率性能(瓦特)和每面积性能进行了优化。考虑到 Grace CPU Superchip 的两个 CPU 和板载内存都消耗 500W 的峰值功率,这很有意义。这与其他的 CPU 具有竞争力,例如 AMD 的 EPYC(霄龙),每个芯片的高功率为 280W(这不包括内存功耗)。Nvidia 声称 Grace CPU 在市场上的效率将是竞争 CPU 的两倍。每个 CPU 都可以访问自己的 8 个 LPDDR5X 封装,因此这两个芯片仍然会受到近远内存的标准 NUMA 类趋势的影响。尽管如此,两个芯片之间增加的带宽也应该有助于减少由于竞争减少而导致的延迟,从而实现非常有效的多芯片实现。该设备还配备了 396MB 的片上缓存,但尚不清楚这是用于单个芯片还是两者兼有。Grace CPU Superchip 内存子系统提供高达 1TB/s 的带宽,Nvidia 称这是 CPU 是支持 DDR5 内存的其他数据中心处理器的两倍多。LPDDR5X 共有 16 个封装,可提供 1TB 容量。此外,Nvidia 指出,Grace 使用了 LPDDR5X 的 ECC 实现。这给我们带来了基准。Nvidia 声称 Grace CPU Superchip 在 SPECrate_2017_int_base 基准测试中比它在 DGX A100 系统中使用的两个上一代 64 核 EPYC Rome 7742 处理器快 1.5 倍。Nvidia 的这一声明基于硅前(pre-silicon)模拟,该模拟预测 Grace CPU 的得分为 740+(每个芯片 370)。AMD 的当前一代 EPYC Milan 芯片是当前数据中心的性能,其 SPEC 结果从 382 到 424 不等,这意味着 x86 芯片仍将保持地位。但是,Nviia 的解决方案将具有许多其他优势,例如电源效率和对 GPU 更友好的设计。两个 Grace CPU 通过 Nvidia 新的 NVLink 芯片到芯片 (C2C) 接口进行通信。这种芯片到芯片和芯片到芯片的互连支持低延迟内存一致性,允许连接的设备同时在同一个内存池上工作。Nvidia 使用其 SERDES 和 LINK 设计技术制作了界面,半导体设备搬运是能源和面积效率。Nvidia 表示,与 Nvidia 目前使用的 PCIe 5.0 PHY 相比,NVLink-C2C 可以提供高达 25 倍的能效和 90 倍的面积效率,支持高达 900 GB/s 或更高的吞吐量。此外,该接口还支持 CXL 和 Arm 的 AMBA 相干集线器接口 (CHI) 等行业标准协议。它还支持多种类型的连接,从基于 PCB 的互连到硅中介层和晶圆级实现。半导体设备搬运对 AMBA CHI 的支持很重要,因为它支持 Arm 的相干网状网络 (CMN-700),将 Neoverse N2 设计与智能高带宽低延迟接口与其他平台添加剂(如 DDR、HBM 和各种加速器技术,使用行业标准协议的组合,如 CCIX、CXL 和 PCIe。这种新的网格设计是基于单芯片和多芯片设计的下一代 Arm 处理器的支柱。您可以在此处阅读有关该协议的更多信息。Nvidia还宣布将支持新的UCIe小芯片互连标准,该标注已经得到如英特尔、AMD、Arm、台积电和三星等其他行业巨头的支持。这种标准化的芯片到芯片互连旨在通过开源设计提供小芯片之间的通信,从而降低成本并培育更广泛的经过验证的小芯片生态系统。UCIe 标准旨在与其他连接标准(如 USB、PCIe 和 NVMe)一样普遍和普遍,同时为小芯片连接提供功率和性能指标。英伟达对这一新举措的支持意味着我们理论上可以看到英伟达 CPU 芯片与未来的竞争芯片设计放在同一个封装中。NVLink-C2C 现在将覆盖 Nvidia 的所有芯片,包括 GPU、CPU、SOC、NIC 和 DPU。Nvidia 还表示,它正在开放规范以允许其他公司在其小芯片设计中使用 NVLink。这为客户提供了使用 UCIe 接口或 NVLink 的选项,尽管 Nvidia 声称 NVLink-C2C 已针对比 UCIe 更低的延迟、更高的带宽和更高的能效进行了优化。