热闹的数据中心芯片市场

2022-01-10 14:00:25 来源: 半导体行业观察

来源:内容由半导体行业观察(ID:icbank) 编译自the next platform ,谢谢。


十多年来,服务器市场的步伐是由每年推出的英特尔至强处理器决定的。可以肯定的是,英特尔并不总是像大数据中心运营商那样以可预测且或多或少的年度节奏推出像发条一样的新芯片。尤其是在英特尔 10 纳米芯片制造工艺碰到障碍之后,导致 Xeon 路线图出现各种裂痕,最终让其他人有机会在数据中心计算领域站稳脚跟在 CPU 上。

展望 2022 年,数据中心计算领域比十年前要丰富得多。这不仅是因为 AMD 重新回到了游戏中,创造了具有竞争力的 CPU 和 GPU,并且如果一切顺利, 它将在第一季度末收购 FPGA 制造商 Xilinx 。(这笔 350 亿美元的交易 于 2020 年 10 月宣布 ,预计将于 2021 年底关闭,但由于反垄断监管机构仍在审查细节而被推迟。)现在,对于那些已经在数据中心工作了数十年的人来说,我们所看到的多样性与现在完全不同。

我们知道,在遥远的过去,系统制造商拥有他们的整个硬件和软件堆栈,并开发从 CPU 到操作系统、数据库和文件系统的所有东西。早在 1980 年代后期,数据中心中大约有两打不同的商业上可行的 CPU 和可能在它们之上的三打操作系统。有一段时间,看起来我们可能最终会在数据中心出现英特尔至强的单一文化,但出于种种原因——即客户喜欢选择和竞争对手追逐利润以分一杯羹——这显然没有发生。这肯定会使数据中心计算变得更加有趣。

系统内部计算的日益易购性以及在充满此类系统的玻璃房中竞争工作的供应商和架构的多样性也是如此。

今年,尽管比预期晚了一点,英特尔还是推出“Ponte Vecchio”X e HPC GPU,这是其首款针对大计算的数据中心 GPU,并替代了其于2015 年首次推出的多核“Knights”系列加速器。AMD 已 在 Instinct MI200 系列加速器中 推出了 其“Aldebaran”GPU 引擎 ,这绝对是 Nvidia 的“Ampere”GA100 GPU 和使用它们的 A100 加速器的可靠替代品,而且这些加速器的使用时间有点长, 已经于 2020 年 5 月推出 。(别担心,Nvidia 很快就会解决这个问题)。为了让事情变得有趣, Nvidia 正在开发自己的“Grace”Arm 服务器 CPU ,虽然我们要到 2023 年才能看到它进入市场。所以这就是我们要说的关于 Grace 的全部内容,因为我们展望2022 年。关键是,三大数据中心计算供应商——英特尔、AMD 和英伟达——将在一年多的时间里同时在该领域拥有 CPU 和 GPU,而英特尔和 AMD 将拥有数据中心 CPU、GPU 和今年在现场的FPGA。

Nvidia 不相信 FPGA 作为计算引擎,所以不要下意识地认为 Nvidia 会在去年 7 月的 SPAC 首次公开募股被取消后收购 FPGA 制造商 Achronix,或者收购另一家重要的 FPGA 制造商 Lattice Semiconductor . 这不会发生。

但今年在数据中心计算领域将会发生很多事情,以下只是重点。让我们从 CPU 开始:

英特尔“Sapphire Rapids”至强 SP: 备受期待的 10 纳米至强服务器芯片,基于小芯片架构的芯片. Sapphire Rapids 与其前代“Ice Lake”和“Cooper Lake”不同,它将包含一个完整的产品线,从一到八个无缝连接的socket。(Ice Lake 被限制为 1 个和 2 个socket,Copper Lake 被限制为 4 个和 8 个socket ,因为崩溃的路线图使它们重叠。如果谣言正确,Sapphire Rapids 每个socket 将有多达 56 个内核,最大功率为 350 瓦. Sapphire Rapids 将支持 DDR5 内存和 PCI-Express 5.0 外设,包括对 CXL 互连协议的支持,据说支持高达 64 GB 的 HBM2e 内存和每插槽 1 TB/秒的带宽,用于那些 HPC 和 AI 工作负载需要它。据传该芯片支持多达 80 条 PCI-Express 5.0 通道,因此它不会像之前的 Xeon SP(如“Skylake”和“Cascade Lake”)那样缺乏 I/O 带宽。

AMD “Genoa” 和 “Bergamo” Epyc 7004: 虽然英特尔正在为 Sapphire Rapids 转向第二代 10 纳米工艺,但 AMD 今年将凭借其基于 Zen 4 和 Zen 4c 内核的“Genoa” 和 “ Bergamo” Epyc 7004 CPU横空出世,早在 11 月推出时,关于这些芯片的数据很少。但据介绍,他们同时还推出了具有堆叠 L3 高速缓存的“Milan-X”Epyc 7003 芯片。Genoa Epyc 7004 将于 2022 年问世,每当 AMD 认为英特尔可以推出 Sapphire Rapids 时,它就会同步推出新品,该芯片拥有 96 个内核并支持 DDR5 内存和 PCI-Express 5.0 外围设备。看起来 AMD 想在 2022 年推出 Epyc 7004 的 128 核 Bergamo 变体,但只承诺将在 2023 年推出。我们认为,根据产量和需求,AMD 可能会尝试在其上市之前交付 Bergamo今年正式向一些超大规模用户推出。我们会看到的。

Ampere Computing “Siryn”,可能没有Altra: 该公司在 2021 年一直在增加其 80 核“Quicksilver”Altra 和 128 核“Mystique”Altra Max 处理器的销售,这两种处理器均基于 Arm Holdings Neoverse N1 内核,并且均采用台积电的 7 纳米工艺。今年推出了基于自研内核的 Sirin CPU,我们一直将其称为 A1,Ampere Computing 多年来一直在开发该内核,并转向 5 纳米 TSMC 制造。有趣的是,看看 A1 内核是否会变得更广泛,就像Amazon Web Services 使用其 Graviton3 处理器(基于 Arm Holdings Neoverse V1 内核)所做的那样,或者 Ampere Computing 是否会使用更简约的设计并提升核心数。正如我们在去年 5 月所写的那样,我们认为 Sirin 芯片将配备 192 个 A1 内核,这些内核将被精简为超大规模和云构建者所需的基本要素,我们进一步认为 Sirin 的推动者,到 2023 年,他们将拥有多达 256 个基于调整后的 A1 内核或全新的 A2 内核的内核。Sirin 芯片几乎肯定会支持 DDR5 内存和 PCI-Express 5.0 外设,而且很可能还会支持用于加速器的 CXL 互连协议。我们从来没有期望 Ampere Computing 会在其内核中添加同步多线程 (SMT),就像一些失败的 Arm 服务器芯片供应商所做的那样,而 AWS 的 Graviton 产品线也没有这样做。

IBM “Cirrus” Power10: 蓝色巨人声称其 Power10 芯片没有代号,所以去年我们将其命名为“Cirrus”,因为我们对不给我们同义词的供应商没有耐心。我们于 2020 年 8 月详细介绍的 16 核 Cirrus 芯片于 2021 年 9 月在“Denali”16 插槽 Power E1080 服务器中首次亮相. Power E1080 有一个 Power10 芯片,每个内核使用 SMT 有 8 个线程,每个芯片中激活 16 个内核中的 15 个,IBM 还可以让两个 Power10 芯片共享一个socket。但随着今年推出的低端 Power10 芯片,IBM 有能力将内核减少一半,以提供两倍的内核和一半的线程——低端“Nimbus”Power9 芯片也提供了这种能力。无论如何,IBM 将能够使用双芯片模块 (DCM) 在单个插槽中拥有多达 30 个有源 SMT8 内核和多达 60 个有源 SMT4 内核,并且每个内核中都有本机矩阵和矢量单元,以加速 HPC 和 AI 工作负载开机。

Power10 内核有八个支持 FP64、FP32、FP16 和 Bfloat16 运算的 256 位向量数学引擎和四个支持 INT4 的 512 位矩阵数学引擎,INT8 和 INT16 操作;这些单元可以在 FP64、FP32 和 INT32 模式下累积操作。IBM 有一个非常紧密耦合的四路、基于 DCM 的 Power E1050 系统(我们还不知道它的代号),它具有非常高的性能和非常大的主内存,以及Power10 架构中内置 的“memory inception”内存区域网络功能 允许机器使用来自服务器的现有NUMA 链接共享彼此的内存,就好像它是本地的一样。

IBM“Telum”z16: IBM System z 大型机的下一代处理器 z16,我们在 2021 年 8 月讨论过,它在架构上很有趣,但除了现有的 IBM 之外,它可能不是任何人的下一个平台大型机的选择。Telum 芯片的有趣之处在于它只有八个内核,但它们以 5 GHz 的基本时钟速度运行。z16 内核仅支持 SMT2 并具有非常宽和深的管道,并且它还具有内核之外的 AI 加速功能,但可以使用本机功能进行访问,从而可以相对轻松地将推理添加到现有大型机应用程序中,而无需任何类型的卸载.

如果 传闻中的微软/Marvell 的合作伙伴关系 产生了另一款自研的 Arm 服务器芯片,那就太好了,如果 AWS 在 2022 年底推出一款更强大的 Graviton4 芯片,让每个人都保持警觉,那就更好了。当然,我们会喜欢 Nvidia 的 Grace Arm CPU,它将在 2022 年问世,它将具有快速和原生的 NVLink 端口以连贯地连接到 Nvidia GPU,并且每个插槽的内存带宽超过 500 GB/秒。

现在,让我们谈谈 2022 年即将推出的 GPU 引擎。

Nvidia “Hopper” 或 A100 NEXT: Nvidia GPU 的代号存在很多混淆,但我们认为 Nvidia 将在路线图上称为 A100 Next 的 GA100 GPU 和代号为“Hopper”的 GH100 和 GH100 的GPU将在今年三月的技术会议上宣布。我们对 GH100 知之甚少,但我们预计它将采用台积电的 5 纳米工艺进行蚀刻,我们还预计 Nvidia 将创建其第一个小芯片设计并将两个 GPU 小芯片放入一个封装中,就像 AMD 刚刚推出的那样使用 Instinct MI200 系列加速器中使用的“Aldebaran”GPU 完成。AMD 在 Aldebaran GPU 中提供 47.9 teraflops 的双精度 FP64 性能,而英特尔预计将在今年推出的“Ponte Vecchio”GPU 中提供超过 45 teraflops 的 FP64 性能,

AMD “Aldebaran” Instinct MI200 缩减版: AMD 为 Instinct MI200 设备在 DCM 中使用了两个小芯片,将 GPU 容量翻了一番,所以为什么不创建一个尺寸更小、热设计点更低、功耗更低的 GPU 加速器只需将一个小芯片放入封装中,每单位性能的价格就会便宜得多。没有人在谈论这个,但这是一种可能性。它可以很好地取代现有的 Nvidia A100。

英特尔“Ponte Vecchio”X e HPC: 英特尔最终会将数据中心 GPU 加速器投入该领域,但在传闻 600 瓦至 650 瓦的情况下,英特尔将要承担的性能将是相对较高的热和成本,如果这些数字是正确的。早在 2021 年 8 月,我们就对第一代 X eHPC GPU 进行了分析,这是一个拥有 47 个不同小芯片的野兽,这些小芯片与英特尔的 2D EMIB 小芯片互连和 Foveros 3D 芯片堆叠互连。由于矢量引擎的时钟频率为 1.37 GHz,Ponte Vecchio GPU 复合体在 FP64 或 FP32 精度下提供 45 teraflops,其矩阵引擎在 TF32 上提供 360 teraflops,在 BF16 上提供 720 teraflops,在 INT8 上提供 1,440 teraflops。这可能是一个热门的 GPU,但它是一个性能怪兽。这比 AMD 通过 Aldebaran 提供的矩阵性能要高得多——BF16 时为 1.9X,FP32 和 INT8 时为 3.8X。

最后,这将我们带到了 FPGA。这里没有太多的亮点,坦率地说,我们不确定赛灵思在什么时候推出具有小芯片架构的“珠穆朗玛峰”Versal FPGA 计算复合体,以及英特尔在何时推出其 Agilex FPGA 计算复合体,它使用小芯片架构和 EMIB 互连,以及它的后续设备(可能也称为 Agilex),它们将使用 EMIB 和 Foveros 的组合,就像 Ponte Vecchio GPU 复合体一样。我们需要在这里做更多的挖掘工作。

至于人工智能训练和推理引擎,这也可能是未来数据中心计算的重要组成部分,那就是另一个故事了。这里有很多噪音,还有一些牵引力和行动,但这些都远不及数据中心的主流。


★ 点击文末 【阅读原文】 ,可查看本文原文链接!


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2916内容,欢迎关注。

推荐阅读


芯片巨头鏖战汽车市场

台积电的幕后英雄

华为哈勃2021年投资版图


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码 ,回复下方关键词,阅读更多

晶圆|集成电路|设备 |汽车芯片|存储|台积电|AI|封装

回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!


点击阅读原文,可查看本文
原文链接!

责任编辑:Sophie
半导体行业观察
摩尔芯闻

热门评论