英伟达发力CPU，背后打什么算盘？

2022-03-26 14:00:08 来源: 半导体行业观察

点击

来源：本文内容编译自the next platform，谢谢。

在一年左右的时间里，随着“Grace”Arm 服务器 CPU 的推出，Nvidia 的任何人相信或大声说并非数据中心中的每个工作负载都需要 GPU 加速并不是异端邪说。

在某种程度上，随着 BlueField 系列基于 Arm 的 DPU 处理器的采用，这种转变已经在 Nvidia 的系统架构中发生。但随着 Grace CPU 的发布，在一年前的 GTC 2021 大会上进行了预览，在2023 年上半年的某个时候，如果一切顺利，Nvidia 将立即成为 Arm 服务器芯片的可靠供应商，可以在条款上与之竞争每瓦的性能，我们假设，每瓦的每美元成本，同时具有最好的 X86、Arm 或 Power 架构。 对于英伟达来说，从 GPU 加速器供应商转变为主机 CPU 供应商——以及拥有大量自己的向量数学能力的主机 CPU ——这将是一个重要事件。 非常重要的事情——将能够运行整个 Nvidia HPC 和 AI 堆栈，包括编译器、库和其他系统软件。Grace CPU 将与 Hopper GPU 完全匹敌，COBOL 发明前美国海军少将可能会在隐喻意义上表示赞同。

十多年来，我们一直在倡导 Nvidia 将 Arm 服务器芯片推向市场，当 Nvidia 联合创始人兼首席执行官 Jensen Huang在 1 月份宣布“Project Denver”Arm 服务器计划时，我们对这种可能性感到兴奋。2011 年，第一波 Arm 服务器芯片试图冲破数据中心的大门。2014 年，当两个 Denver Arm 内核出现在 Tegra K1 “superchip” 混合 CPU-GPU 芯片上时，街上的消息是 Nvidia 提出了自己的 CPU 指令集架构 (ISA)，并在此基础上模拟 Arm ISA，而且，重要的是，它也能够模拟 X86 ISA。（Transmeta 早在 20 年前就尝试过这样做，还记得吗？）想象一下，如果 Nvidia 推出了可以模拟 Xeon 或 Opteron（现在是 Epyc）并且还可以运行 Arm 工作负载的全功能 Denver 服务器芯片，那么可能会引发诉讼，也许，它自己的原生模式。. . .

但遗憾的是，我们不得不再等十几年，英伟达以 400 亿美元从软银收购 Arm Holdings 的交易落空，英伟达的更清洁的 Arm 服务器芯片计划才出现。我们认为这是 Nvidia 在提出 SoftBank 提议之前最初的计划——我们和 Huang 开玩笑说我们想要 Nvidia 的 Arm 服务器芯片，但 Nvidia 不需要Victor Kiam并购买整个公司。

也就是说，我们了解整个 Arm 的千载难逢的机会——从财务上来讲，这是一个很好的机会，但主要是 Nvidia 股票，它像现金一样支出，但实际上不是现金。而且我们还完全理解了未来 Aarmv9 架构的影响，以及许多机器学习工作——当然大部分推理和可能的一些训练——将保留在 CPU 上并且不会迁移到 GPU 或其他加速器这一事实。正如我们在 2021 年 3 月仔细研究 Armv9 公告时所说的那样就在 Grace 的努力获得成功后的几周和 Arm Holdings 交易宣布的 8 个月后，英伟达想要收购 Arm：它可以获得矢量、矩阵和数字信号处理知识产权的许可资金，这将是添加到各种 CPU 正是因为系统架构师不想进行 GPU 卸载。

进行任何类型的卸载都存在编码和安全隐患——加密加速器、在线 FPGA 加速器或 GPU 加速器——许多企业和组织不想处理它们。那些需要 10 倍或 100 倍更好的 AI 性能和 10 倍更好的 HPC 性能的人别无选择，只能使用 GPU——除非他们想制造具有大量内核和大量矢量引擎的定制 CPU。富士通在日本 RIKEN 实验室的“Fugaku”超级计算机上使用 A64FX Arm CPU 做到了这一点，国家并行计算机工程与技术研究中心为无锡国家超级计算中心的“太湖之光”和“海洋之光”超级计算机分别配备了神威SW26010和SW26010- pro处理器。这两款机器都有令人印象深刻的结果。但高性价比和低功耗并不是这两款机器的特点。（ Fugaku 三年前在 Green500 超级计算机排名中名列前茅，但已被英伟达“Ampere”A100 GPU 加速器加速的一长串机器推下榜单。“Hopper”H100 GPU 加速器只会让这些比较变得更糟，而且随着据我们所知，目前还没有 A64FX-2 芯片与 A64FX 相比工艺缩小、时钟速度提高、功率降低或价格/性能改进。

尽管如此，许多企业和组织仍将做出选择，要么支付数百万美元将其 C、C++ 和 Fortran 代码拆开以进行 GPU 卸载，要么支付更多电费并花费更长的时间来得出答案并在 zippy CPU 上运行 AI 工作负载，该 CPU 可以很好地使用内存子系统进行矩阵和矢量数学运算，但与 GPU 加速器的skinny sprinter HBM 内存相比，内存子系统具有大量内存。

这就是 Grace CPU 对 Nvidia 如此重要的原因之一，Grace 将运行 Nvidia 为在 GPU 上运行而创建的所有软件的声明也是如此。

让我们直接从 Huang 的 GTC 2022 主题演讲的顶部写下这一点：“Grace 将在人工智能、数据分析、科学计算和超大规模计算方面表现出色，Grace 将受到 Nvidia 的所有软件平台的欢迎——Nvidia RTX、HPC、英伟达 AI 和 Omniverse。”

Nvidia 加速计算高级总监 Paresh Kharya 对此更明确一点，因为在 Grace 上受到欢迎的软件与在 Grace上运行的软件不同：“我们正在按计划执行我们的 CPU 路线图，并且Grace CPU 还将运行 Nvidia 的所有计算堆栈，包括 Nvidia RTX、HPC、Nvidia AI 和 Omniverse，这是我们在产品中使用 Arm CPU 的十多年旅程的延续，包括三年前的一个关键里程碑，当时我们宣布将 CUDA 以及我们的全套 HPC 和 AI 软件引入 Arm。”

这是我们了解到的关于 Grace CPU 的第一个重要的新事物。如果客户想要它，它可以独立运行，并且它可以进行任何类型的计算，就 Nvidia 而言，GPU 可以做到。

第二个重要的事情是，运行 HPC 或 AI 工作负载的混合 CPU-GPU 系统需要主机处理器，它们需要 CPU 和 GPU 之间更紧密的耦合，并且它们需要基于这两种设备中尽可能相似技术的一致内存。这是迄今为止，尚未完成的事情。蓝色巨人用 Power9 芯片展示了它上面有一对 NVLink 端口，它可以在具有 HBM2 内存的 Nvidia V100 GPU 网络和 Power9 芯片上的 DRAM 之间相对无缝地共享内存。但是带宽并不是那么平衡。CPU 对自己内存的访问速度相对较慢，它成为机器中 GPU 集群的一种 DRAM 控制器，它们之间的对话速度要快得多。不同的是，进入 GPU 的 CPU 内存带宽为 64 GB/秒，而 GPU 相互通信时的带宽为 8,000 GB/秒。（这是一个假设的比较，使用了每张卡运行速度为 2 TB/秒的 HBM2e 内存，而不是运行速度为 3 TB/秒的高端 Hopper H100 封装中的 HBM3 内存。）

正如我们在一年前展示的那样，通过结合 Grace-Hopper 混合芯片，Grace CPU 可以链接到它们的低功耗 DDR5 内存（它们像 GPU 加速器上的 HBM 内存一样在封装上安装），NVLink 端口加起来多达500 GB/秒的总带宽，在 Grace CPU 集合之间有 500 GB/秒的 NVLink 端口，因此它们可以共享数据，并且在 Grace CPU 和 Hopper GPU 之间也有 500 GB/秒的链接。这就是 Nvidia 现在将其称为 NVLink Chip to Chip，或简称为 NVLink C2C，它首次提供许可，以便其他芯片可以配备它。再一次，正如我们一年前所说：这种架构 Nvidia 可能正在创建 NVLink 内存，NVLink SerDes 直接链接到某种缓冲 LPDRR5 内存，就像 IBM 在 Power10 芯片中使用自己的信令 SerDes 作为 NUMA、I/O 和带有缓冲 DDR5 内存的内存链接。

目前尚不清楚英伟达是否会将 Grace CPU 作为独立产品出售给超大规模制造商、云构建商、OEM 或 ODM 以创建自己的系统。在这一点上，我们知道有两种不同的 Grace 变体即将上市，它们看起来像是高端 Hopper GPU 加速器中使用的 SXM5 外形尺寸的变体：

上图左侧是 Grace-Hopper 模块，将 CPU 和 GPU 通过 NVLink 紧密耦合在一个包中，右侧是一对 Grace CPU，每个都有 72 个内核，512 GB 主存和 500 GB/秒的主内存带宽。

如果您在下面非常仔细地查看 Grace 裸片的细节。

然后你会看到每个 Grace die 都有四个象限的内核。其中两个象限各有 18 个内核，两个象限各有 24 个内核，这是一个奇怪的比例，但确实如此。每个裸片有 84 个内核，看起来很容易扩展到 96 个内核，并在两个象限中增加了另一行 12 个内核。在上面的模型中，芯片彼此旋转 180 度，这对于整个封装的平衡原因可能很重要。

每个 Grace die 都有 8 组 LPDDR5X 内存，我们假设它们来自三星，如果是这样的话，它的运行频率为 4.23 GHz，并且似乎在八个内存通道上提供了 62.5 GB/秒的带宽。Nvidia 安装在 Grace 封装上的 LPDDR5X 内存具有 ECC 错误检测和纠正清理功能，这是服务器工作负载所必需的。因此，在 Grace-Grace 对中，CPU 芯片与其主内存之间有 1 TB 的内存和总计 1 TB/秒的内存带宽。（据我们所知，两个 Grace 芯片之间有一个 900 GB/秒的 NVLink 端口。）两个 Grace 芯片上还有 396 MB 的 L3 高速缓存，每个 Grace 芯片 198 MB，每个内核 2.75 MB . 如果缓存的产量是 100%，那就是。如果缓存的产量不是 100%，因为 CPU 的产量不是只有 84 个核心中的 72 个处于活动状态，

目前尚不清楚 Grace CPU 中的内核是什么，但我们确信它们实现了 Armv9 指令集，并且我们认为它将成为市场上首批这样做的 CPU 之一。（我们预计 Armv9 Graviton4 将在今年 11 月推出，如果 Amazon Web Services 保持其每年发布本土 CPU 的节奏，并从 2023 年初开始向其云中发货。）但“波塞冬”平台似乎不太可能以及它们的 N3 和 V2 内核（这些是我们对Gravitron3 中使用的“Zeus”V1 Armv8.9 内核和“Perseus”N2 Armv9 内核的继任者的命名，目前还没有人发货) 将准备好被扔进格蕾丝模具中。但是，Nvidia 总是有可能创建一个定制的 Armv9 内核，该内核具有两个 256 位宽的 SVE2 向量，并且还使用其他 Armv9 功能。毕竟，Nvidia 不必等待 Arm 将 Poseidon 内核投入该领域，它也可以做各种定制的 ISA 工作，就像多年前在 Project Denver 所做的那样。

不要假设它们只是 Perseus N2 核心就是我们所说的。展望未来，即使 Grace 1 芯片确实使用 N2 内核，也不要假设 Grace 2 不会是定制内核。Nvidia 在定制方面非常重视。我们有理由确定 Grace 将由台积电以 5 纳米工艺实现——比 Nvidia 在 Hopper GPU 上使用的定制 4N 工艺略胖——但如果 Grace 也在定制中实现也不要感到惊讶4N 工艺缩小模具并降低性能。

凭借Grace-Grace double-whammy模块，Nvidia 预计该芯片将在 SPECrate2017_int_base 整数基准测试中提供超过 740 的评级。很难猜测 Grace 单元的时钟速度可能在哪里，但是两个 CPU（包括内存）的功耗只有 500 瓦，我们预计它在 2 GHz 左右，可能高达 2.3 GHz。如果是这种情况，那么这两个 128 位 SVE2 FMA 向量单元每个内核每个时钟可以执行 8 次浮点运算，即在 2 GHz 和 2.3 GHz 上运行的浮点数学运算中，在 FP64 双精度下为 2.3 teraflops 和 2.65 teraflops。这不是很大，请注意。但它与许多其他 CPU 具有竞争力，尤其是那些针对超大规模处理器的 CPU。也就是说，我们认为 Nvidia 很有可能希望在其 Grace 内核中拥有一对 256 位 SVE2 向量，以将浮点性能提高一倍。这将使其与来自 AWS 的 Graviton3 相提并论，后者使用针对 HPC 和 AI 工作负载的“Zeus”V1 内核。

我们会看到的。

这将我们带到了 Grace-Hopper 混合 CPU-GPU 模块：

这基本上是卡上完整的加速计算单元。除了用于软件和暂存器的闪存以及与外部世界的链接之外，它不需要任何其他东西。默认情况下，运行速度为 900 GB/秒的 NVLink 端口存在。目前尚不清楚 Grace-Hopper 模块中将使用哪种 Hopper 芯片，但我们强烈怀疑它将是 GPU 的减速版本，就像在 Hopper H100 GPU 加速器的 PCI-Express 5.0 版本中使用的那样，它具有其 80 GB 的 HBM3 内存提供 2 TB/秒的带宽。这与 Nvidia 一年前为 Grace 制定的概述相吻合，GPU 及其 HBM3 内存堆栈仅消耗 350 瓦。这意味着 Grace-Hopper 封装的功耗约为 600 瓦，总内存为 592 GB——略低于上表所示的 600 GB，但 Nvidia 正在四舍五入。

需要记住的一点是，Huang 在他的主题演讲中表明，Grace GPU 和 Hopper GPU 的比率不是静态的。当涉及到系统架构时，这将是极其有限的，因为并非所有工作负载都具有相同的 CPU 与 GPU 比率。以下是黄展示的一些可能性：

左侧是带有 400 Gb/sec ConnectX-7 适配器的 Grace 模块，可以安全地假设每个计算模块如果在整个系统中共享数据都需要自己的网络接口。NVLink 将用于在一个节点内将这些组件捆绑在一起，如果看到 Nvidia 提出在盒子内的 NVSwitch 上运行的可组合性软件以及跨盒子的 NVLink Switch 以使 CPU 和 GPU 模块的机架可组合，这将是一件有趣的事情。（我们将对此进行思考。）

上图中有趣的一个显示了一个独立的 Grace CPU，它具有 512 GB 内存，连接到 SXM5 外形尺寸的两个独立 Hopper GPU。这看起来像一个 MiniITX 风格的板。之后，它只是一个 Grace-Grace 模块与两个、四个或八个 SXM5 版本的 Hopper GPU 的组合。我们假设每对 GPU 都需要一个 NVSwitch 3 ASIC 将 CPU 链接到 GPU，而 Grace-Grace 模块和 GPU 之间的链接可能还需要另一个 NVSwitch ASIC。（我们在这个故事中讨论了新的 NVSwitch 和 NVLink Switch 设备和拓扑。）目前尚不清楚，但我们将找出并跟进。

点击文末【 阅读原文 】，可查看英文原文内容。

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第2991内容，欢迎关注。

英伟达发力CPU，背后打什么算盘？

相关文章

最新新闻

热门文章本日 七天 本月

热门评论

热门搜索

英伟达发力CPU，背后打什么算盘？

相关文章

最新新闻

热门文章 本日 七天 本月

热门评论

热门搜索

热门文章本日七天本月