来源:内容由半导体行业观察(ID:icbank)编译自「
nextplatform
」,谢谢。
最近几年,因为芯片越做越大,为了提升芯片性能,降低芯片成本,大家都将目光转向了Chiplet。而从英特尔的最新发布,我们似乎看到,这家芯片巨头在这条路上,又迈出了重要一步。
当英特尔高层说明年初推出的“Sapphire Rapids”
X
e
on SP CPU 和“Ponte Vecchio”
X
e
HPC GPU 代表着“十多年来最大的架构转变”时,他们并不是在开玩笑。在本周举办的第三届年度架构日上,我们一次又一次地听到了这一点,对于英特尔的财务和技术未来以及提高数据中心计算和网络芯片的竞争水平来说,这似乎是真的。
这让我们想起了很久以前我们从Chesebrough-Ponds(1980 年代后期被联合利华收购)的前公司财务总监那里学到的一句——“做任何事情的最佳时间是十年前。第二好的时机就是现在。”
这句话里没有多少内疚、悲伤或绝望的余地;这是关于行动的。
这种前瞻性的情绪是英特尔近十年来迫切需要的一种情绪,也是英特尔首席架构师、现任其新加速计算系统和图形部门负责人 Raja Koduri为公司带来的比其他任何人都多的情绪。英特尔的前CTO Pat Gelsinger,在今年初则以英特尔首席执行官的身份回归,他将帮助英特尔在芯片制造商的市场中发挥更广泛的作用。他们都是乐观的技术专家,他们也知道如何完成芯片工作。
虽然在架构日获得了一些启示,我们也将在未来几天经历——深入探讨两周期“Gracemont”高效核心和“Golden Cove”性能核心 的CPU 引擎设计、模块化
X
e
图形芯片设计,以及该公司为“顶级云提供商”设计并正在构建(使用 Arm 内核)的定制“Mount Evans”DPU。
我们现在想要关注的是 Sapphire Rapids 和 Ponte Vecchio ,这是英特尔将推出的两个最重要的数据中心组件,它们展示了该公司将在未来十年内创建计算引擎所采取的战略。它们也是阿贡国家实验室延迟已久的“Aurora”超级计算机的核心。
是的,如果英特尔在十年前开发并采用其芯片封装技术会更好,因为那样做的话,他们就在摩尔定律工艺收缩开始放缓之前就做好了准备,并且因为时钟的登纳德缩放也已经死了十年。在这成为一个大问题之前,看到这些信号并采取行动,结果肯定会更好。但是,第二好的时机是现在就做。
值得称道的是,英特尔终于做到了这一点,我们将在未来几年内在许多不同方面看到英特尔与AMD 和 Nvidia 展开真正的竞争。这对世界上的每个数据中心都有好处。
我们将从 Sapphire Rapids 开始,然后单独跟进我们现在对 Ponte Vecchio 的了解,然后深入研究 CPU 和 GPU 计算架构。
你需要了解Sapphire Rapids的两个最重要的事情是,它会使用新的高性能核心,原名Golden Cove,,而且它在芯片间是使用四芯片模块嵌入式多芯片互连桥(EMIB)连接。
我们可能不会将 Sapphire Rapids 及其后续产品的基本计算单元称为 P-Core,除非其他人开始将其与 Efficient Core 或 E-Core(以前称为 Gracemont Atom 内核)进行对比. 长期以来,英特尔一直采用大小核战略,但我们确实预计,
X
e
on SP 封装中迟早会出现内核类型的混合以及内存类型的混合。以“Alder Lake”开头的 Core 客户端处理器将混合使用 P-Core 和 E-Core 计算。
如果您查看上面的 Sapphire Rapids 封装,这大致类似于 AMD 在其第一代“Naples”Epyc 芯片上采用的方法,它将四个 Ryzen 台式机芯片与称为 Infinity Fabric 的 HyperTransport-infused PCI-Express 内部互联。通过这样做,英特尔可以摆脱单片芯片设计,因为这种设计很难通过其第二版本的10 纳米工艺获得良好的良率,从而降低 Sapphire Rapids 插槽的总体成本,即使互连和封装开销不是免费的。
我们认为奇怪的是,而且我们将来也会问的是——为什么英特尔没有像 AMD 在“Rome”Epyc 7002 和“Milan”Epyc 7002芯片那样,把存储控制器和I/O控制器抽出来,并把它们归结到一个Hub 芯片中。EMIB 看起来更像是英特尔自“Skylake”
X
e
on SP 设计以来一直使用的片上网状网络的扩展器,用于链接内核、缓存、缓存和home agents (CHA) 以及snoop filters (SF)。该网状网络于 2015 年首次用于由矢量增强型 Atom 内核制成的“Knights Landing”
X
e
on Phi 处理器 ,并进入 Skylake 设计以取代以前将内核和缓存捆绑在许多变体上的环形互连。多代至强 E5 和至强 E7 芯片。
这意味着英特尔可以制造一款针对高性能台式机的高端工作站芯片,例如具有 10 个内核,并将其中的 4 个连接在一起,以创建一个 40 核的芯片,它的外观和风格都像改进的“Ice Lake”单片芯片。
它可以取消 XCC 或 Extreme Core Count 28 核die和 UCC 或 Ultra Core Count 40 核die,与具有 8 或 10 核的芯片相比,它们的构建成本非常高。目前还没有人知道 Sapphire Rapids 封装中使用的tile的die核心数是多少,但英特尔希望在完整配置中尽可能少地变化和尽可能多的核心。
我们认为每tile 12 个内核是一个可能的数字,如果可以在 10 纳米工艺中完成而不是创建 400 瓦的部件,那么每tile 16 个内核会更好。这将使 Sapphire Rapids 插槽增加到 48 核或最多 64 核,后者与 AMD 的 Epyc 7002 和 7003 芯片完全一致。有传言称,该插槽将提供 56 个内核,即每tile 14 个内核。我们强烈每个tile上可能有 16 个内核,并且有两个内核被献良率之神。
我们想知道通过在网格而不是在内存控制器上链接是否存在 NUMA 延迟损失。Sapphire Rapids 封装的首席工程师 Nevine Nassif 在架构日的演讲中谈到了这一点。
“Sapphire Rapids 的核心是一种新的模块化、平铺架构,它使我们能够将
X
e
on 架构的界限扩展到物理网线之外,”Nassif 解释说。“Sapphire Rapids 是第一款使用 EMIB 构建的至强产品,EMIB 是我们最新的 55 微米凸块硅桥技术。这项创新技术使独立的tile能够集成到封装中以实现单个逻辑处理器。由此产生的性能、功率和密度可与等效的单片芯片相媲美。
我们现在能够增加内核数量、缓存、内存和 I/O,而不受物理约束的影响,否则这些约束会强加给架构,并导致难以妥协。这种基础 SoC 架构对于提供平衡、缩放、和所有工作负载的一致性能,并且是实现数据中心规模、弹性和实现最佳数据中心利用率的关键。
通过这种架构,我们现在能够为软件提供单一、平衡、统一的内存访问,每个线程都可以完全访问所有tile上的所有资源,包括缓存、内存和 I/O。结果是整个 SoC 具有一致的低延迟和高横截面带宽,并且是我们在 Sapphire Rapids 中提供低抖动的关键方法之一。
虽然 Sapphire Rapids 为现有软件生态系统提供了开箱即用的可扩展性,但用户可以在 sub-NUMA 和 sub-UMA 级别启用集群,以获得额外的性能和延迟改进。” 并实现最佳数据中心利用率。以获得额外的性能和延迟改进。”
XCC 和 UCC
X
e
on SP 芯片存在延迟惩罚,因此Intel 将它们分割成虚拟 NUMA 区域以提高性能,看起来这也不会有什么不同。我们的猜测是,在许多情况下,软件会将其视为四个进程而不是一个进程。当有人试图跨多个图块扩展 VMware ESXi 虚拟机时,我们将看到真正的“交易”是什么。这才是真正让Naples Epycs迷惑的原因。
Sapphire Rapids 封装上的四个tile中的每一个都有一个 DDR5 内存控制器,具有两个通道和超过 25 MB 的最后一级缓存,几乎可以肯定,这是一个在所有tile之间共享的 L3 缓存,拥有超过 100 MB的容量,并且将由总共八个 DDR5 通道供电。该芯片还将支持英特尔去年 12 月预览的“Crow Pass”Optane 300 系列持久内存。
在 I/O 方面,每个 Sapphire Rapids tile 都有一个 x24(24 通道)UltraPath Interconnect (UPI) 端口,用于交叉耦合到其他 Sapphire Rapids 插槽,以创建具有两个、四个或八个插槽的 NUMA 机器。这些 UPI 链接将以 16 GT/秒的速度运行。
“Ice Lake”至强 SP 芯片仅适用于具有一或两个插槽的机器,并且具有三个以 11.2 GT/秒较慢的速度运行的 UPI 链接。“Cascade Lake”
X
e
on SP 只有两个 UPI 端口,运行速度为 10 GT/秒。
Sapphire Rapids 芯片将在每个块上运行一个 PCI-Express 5.0 端口,因此插槽上有四个;英特尔尚未说明该socket将提供多少条 PCI-Express 5.0 通道。Ice Lake 服务器芯片有 60 条以 PCI-Express 4.0 速度运行的通道,每条通道的带宽减半;有传言整个芯片将支持80通道,所以个tile有 20 个通道。该 PCI-Express 5.0 控制器将支持用于连接加速器和外部存储器的 CXL 1.1 一致性协议。
我们早在 6 月份就已经讨论过这个问题,但英特尔还在选定的 Sapphire Rapids CPU 上提供 HBM 内存选项,针对需要比 DDR% 所能提供的内存带宽更多的 HPC 和 AI 工作负载。早在 6 月就有消息称,英特尔将非常激进,提供四组 HBM2 内存,每个芯片 4 GB,每个插槽总共 64 GB。
这种 HBM 内存将有两种模式(好吧,我们认为是三种)。第一种称为扁平模式,将内存划分为 HBM 和 DDR 区域,然后是缓存模式,将 DDR5 内存用作 HBM 内存的一种缓存。当然,你可以直接用HBM加载,根本不使用任何DDR5内存,这将是第三种方式。看到第四种方式将非常有趣,它将通过 CXL 链接提供 Sapphire Rapids CPU 中的 HBM 内存和 Ponte Vecchio GPU 加速器中的 HBM 内存的一致性——我们认为这将发生在 Argonne 的 Aurora 系统中.
在架构日活动中,英特尔给出了一些关于 Sapphire Rapids 处理器在不同模式下相对于自身及其前辈的表现的提示。
第一个图表只是原始的 8 位整数 (INT8) 性能,目前在许多神经网络中用于机器学习推理。看看这个:
与 Golden Cove 核心一起添加的高级矩阵扩展或 AMX 指令显然将显着提高推理性能。此图表显示每个周期的操作,因此我们认为 AMX 是 AVX-512 单元的矩阵数学叠加,与 Ice Lake 相比,INT8 性能将提高 8 倍(或仅使用添加的 VNNI 指令中的原始 INT8 函数) Cascade Lake 和 Ice Lake 芯片)。当然,也用于 AI 训练和推理的 Bfloat16 将以这个速度的一半运行。
第二个性能要求与微服务性能有关——这意味着在云时代很常见的大规模分布式应用程序。
与 Ice Lake 相比,Sapphire Rapids 的原始指令每时钟 (IPC) 似乎高出约 19%,而 Ice Lake 在原始 IPC 上比 Cascade Lake 高 20%,因此这些数字是一致的。事实上,这比仅基于 IPC 的预期高出约 25%。当然,更快的内存、更多的 I/O 以及无数其他调整都有助于实现这一点。
英特尔推进全新架构,面向数据中心、HPC-AI和客户端计算
英特尔推出两大x86 CPU内核、两大数据中心SoC、两款独立GPU,以及变革性的客户端多核性能混合架构
英特尔公司高级副总裁
兼加速计算系统和图形事业部总经理
架构是硬件和软件的“炼金术”。它融合特定计算引擎所需的先进晶体管,通过领先的封装技术将它们连接,集成高带宽和低功耗缓存,在封装中为混合计算集群配备高容量、高带宽内存和低时延、可扩展互连,并确保所有软件无缝地加速。披露面向新产品的架构创新,是英特尔架构师在每年架构日上的期许,今年举办的第三届英特尔架构日令人十分兴奋。
今天,我们公布了英特尔®架构在近年来重大的改变和创新。这包括:第一次深入介绍了英特尔首个性能混合架构Alder Lake,其搭载两款新一代x86内核以及智能英特尔®硬件线程调度器;英特尔全新引领行业标准的数据中心架构Sapphire Rapids,其搭载全新的性能核以及多种加速器引擎;英特尔全新的独立游戏图形处理器(GPU)架构;英特尔全新的基础设施处理器(IPU)以及超凡的数据中心GPU架构Ponte Vecchio,其具备英特尔迄今为止最高的计算密度。
架构突破为英特尔的下一波领先产品奠定基础,率先推出的是Alder Lake。随着从台式机到数据中心的工作负载愈发庞大、愈发复杂、愈发多样,我们在架构日上展示的突破展现了架构将如何满足对更高计算性能的需求。
架构师们奋力而行,结合英特尔独特、丰富的标量、矢量、矩阵和空间计算引擎,打造混合计算架构,为客户的高需求工作负载提供非线性处理能力。
一个高度可扩展的x86微架构,它能满足客户从低功耗移动应用到多核微服务的全方位计算需求。对比英特尔迄今为止最多产的CPU微架构——Skylake,能效核可在相同功耗下提升40%的单线程性能,或者在提供同样性能时,功耗仅为Skylake的40%不到。①就吞吐量性能而言,与运行四个线程的两个Skylake内核相比,四个能效核在性能提升80%的同时功耗更低,或者在提供相同吞吐量性能时,功耗降低80%。①
它不仅是英特尔迄今为止性能最高的CPU内核,而且在CPU架构性能方面实现阶梯式提升,推动未来十年的计算发展。它是一个更宽、更深、更智能的架构,展现出更高的并行性,提高执行并行性,降低时延,提升通用性能。它还帮助支持大数据集和大型代码体积的应用程序。与第11代酷睿架构(Cypress Cove内核)相比,相同频率下,性能核在一系列工作负载上平均提升了约19%。①
针对数据中心处理器和机器学习的发展趋势,性能核提供了专用硬件,包括新的英特尔高级矩阵扩展(AMX)来执行矩阵乘法运算,以获得数量级的性能——AI加速提升约8倍。这是为软件易用性而设计,利用了x86编程模型。
这是英特尔开发的独特调度方法,旨在确保将能效核和性能核无缝衔接在一起,从开始就动态、智能地分配工作负载,从而优化系统以在真实场景中实现更高的性能和效率。智能直接置于内核,英特尔硬件线程调度器与操作系统无缝配合,在合适的时间把合适的线程分配给合适的内核。
它重构了多核架构,是英特尔首个搭载全新英特尔硬件线程调度器的性能混合架构。它是英特尔最智能的客户端SoC架构,结合了能效核和性能核,适用于从移动端到台式机的产品,并通过多种业界领先的I/O和内存而引领行业变革。基于Alder Lake的产品将在今年开始出货。
一款全新的独立显卡微架构,专为游戏和创作工作负载提供发烧友级别的性能。
X
e
HPG微架构采用新的
X
e
内核,聚焦计算、可编程、可扩展,并全面支持DirectX 12 Ultimate。
X
e
内核中的全新矩阵引擎(
X
e
Matrix eXtensions,XMX)能够加速AI工作负载,比如
X
e
SS,是一项全新升频技术(upscaling technology),可以实现高性能、高保真游戏体验。基于
X
e
HPG的Alchemist SoC(之前代号为DG2)将于2022年第一季度上市,并采用新的品牌名英特尔®锐炫™。
它结合了英特尔的性能核与全新加速器引擎,树立了下一代数据中心处理器的标准。Sapphire Rapids的核心是一个模块化的分区SoC架构,得益于英特尔的EMIB多晶片互连封装技术和先进网格架构,它具有显著的可扩展性,同时仍保持单晶片CPU接口的优势。
Mount Evans是英特尔首款专用ASIC IPU,以及全新的基于FPGA的IPU参考平台——Oak Springs Canyon。通过基于英特尔IPU的架构,云服务提供商(CSPs)可以通过把基础设施任务从CPU转移到IPU,从而让数据中心收益更大化。把基础设施任务转移到IPU,能够让云服务提供商(CSPs)可以把所有的服务器CPU租给客户。
Ponte Vecchio是英特尔迄今为止最复杂的SoC,也是我们践行IDM 2.0战略的绝佳示例,它采用多种先进的半导体制程工艺、英特尔变革性的EMIB技术以及Foveros 3D封装技术。这是我们实现堪比登月难度创新后的一款产品,它包含1000亿个晶体管,提供业界领先的浮点运算和计算密度,以加速人工智能、高性能计算和高级分析工作负载。在架构日上,英特尔展示了早期的Ponte Vecchio芯片就已经显示出领先的性能,在一个流行的AI基准测试上创造了推理和训练吞吐量的行业纪录。①我们的A0芯片已经实现了超过每秒45万亿次浮点运算的FP32吞吐量,超过5 TBps的持续内存结构带宽以及超过2 TBps的连接带宽。如
X
e
架构一样,Ponte Vecchio将由oneAPI支持,后者是英特尔一个开放、基于标准、跨架构、跨供应商的统一软件堆栈。
回望过去一年,科技处于所有人如何沟通、工作、娱乐和应对新冠肺炎疫情的核心。事实证明,强大的计算能力至关重要。展望未来,我们面临庞大的算力需求,预计到2025年将是1000x(千倍级)的提升,而四年内增加1,000倍相当于摩尔定律的5次方。
英特尔CEO帕特·基辛格也是一位架构师,他说:“我们面临艰巨的计算挑战,一定要通过变革性的架构和平台来解决……正是英特尔才华横溢的架构师和工程师们,让这些技术‘魔法’得以成真。”
世界正依赖架构师和工程师来解决艰巨无比的计算问题,以造福人类。这就是为什么我们的战略和执行不断加速以满足所需。我们疾步前行。
更新信息请访问:
https://www.intel.com/content/www/us/en/newsroom/resources/press-kit-architecture-day-2021.html
①工作负载和配置见www.intel.com/ArchDay21claims.
★ 点击文末
【阅读原文】
,可查看本文原文链接!
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第2772内容,欢迎关注。
『
半导体第一垂直媒体
』
实时 专业 原创 深度
识别二维码
,回复下方关键词,阅读更多
晶圆|集成电路|设备
|汽车芯片|存储|MLCC|英伟达|模拟芯片
回复
投稿
,看《如何成为“半导体行业观察”的一员 》
回复
搜索
,还能轻松找到其他你感兴趣的文章!