首页 > 芯片设计 > 存储器 > 正文

存储界的“三大金刚”：HBM、MRDIMM与CXL

2024-12-05 13:25:50 来源: 杜芹

点击

当下，存储界有三大前沿技术，分别是HBM、CXL、MRDIMM。HBM想必大家都已经很熟悉，伴随着英伟达GPU的爆火，HBM也着实秀了一波。CXL是近两三年才出现的“新事物”，它是一种新的内存互联技术，但是其发展速度毫不逊色，其行业支持已超过之前的几种一致性互连标准。而MRDIMM这项内存技术，则随着英特尔至强6的发布，开始被业界关注。

“锦上添花”的MRDIMM内存技术

今年9月底，英特尔发布了全新的英特尔至强6性能核处理器，伴随这个产品发布也带来了亮点技术，其中一个就是内存技术MRDIMM（Multiplexed Rank DIMM）。使用了MRDIMM的至强6可以达到8800MT/s的数据速率，与DDR5最高端的6400MT/s、主流的4400MT/s或4800MT/s相比，MRDIMM所带来的性能加持，不管是从带宽还是延时都会有显著地提升。

与英特尔技术专家交流过后，我们才了解到，原来英特尔的MRDIMM技术，从原型设计到如今正式发布已经有很多年了，之所以在至强6这一代支持MRDIMM，主要基于对性能和收益的平衡，并且和现有DDR5实现兼容。

MRDIMM的概念听起来很简单，即将两个DDR5 DIMM组合起来，为主机提供两倍的数据速率。那么，MRDIMM从技术上是怎样实现的呢？

根据英特尔技术专家的详细介绍，通常情况下，RDIMM内存模块有一个或两个Rank（阵列）。当存在两个Rank时，普通DRAM会分开访问，每次读写操作仅有一个阵列处于活跃状态，另一个阵列则处于闲置状态。而MRDIMM则能让两个阵列同时处于活跃状态，通过片上数据缓冲区实现128字节在两个阵列间的同步操作。

虽然这一原理看似简单，但在工程实现过程中却面临诸多的技术难题。英特尔技术专家介绍了其中很重要的一点是，片上数据缓冲区的引入也带来了不小的挑战。尽管DRAM颗粒本身已经非常高速，但英特尔在此基础上增加了一个缓冲区（buffer），以处理128字节的数据传输，并且与控制器联动，同时满足RAS需求，确保数据的完整性和一致性。这不仅仅是简单地将数据分发到两个Rank，还需要在整个工程实现过程中进行大量的创新与协作。

从技术优势上来看，MRDIMM的单条容量可以达到256GB，这意味着它在容量上远超HBM，同时成本也更为低廉。在AI推理或模型调优的场景中，尤其是在需要大内存容量的应用，如RAG（Retriever-Augmented Generation）时，MRDIMM既能提供高性能的表现，又能满足更大的内存需求，同时适应更加通用的应用场景，特别是在AI和科学计算领域表现尤为突出。

MRDIMM的优势还在于，由于它兼容DDR5插槽，从而具有更好的通用性。这种兼容性带来了诸多好处，比如服务器整机设计，包括散热系统的设计，可以统一考虑并采用统一的处理方案。

MRDIMM的引入旨在满足AI、科学计算等工作负载的需求，也适用于内存数据库等关键应用场景中。对于AI等内存带宽敏感型应用，MRDIMM提供了显著的优势。然而，对于对内存带宽需求不高的应用，主要依赖计算得出结果的应用，使用MRDIMM并不会带来额外的收益。简而言之，MRDIMM的价值在于其对内存带宽的优化，而非单纯的计算或存储能力。

因此，当前MRDIMM主要应用于那些对内存带宽要求较高的服务器端场景，为数据中心“锦上添花”。

在内存厂商领域，目前三星、SK海力士、美光都推出了相应产品。英特尔技术专家表示，MRDIMM的主要目标是提升性能。虽然当前各大内存厂商的产品规划中，MRDIMM覆盖了32GB、48GB、64GB、96GB、128GB和256GB等常见内存容量，但市场上DDR5内存已经能达到512GB甚至更大容量。然而，与其单纯追求内存容量的提升，MRDIMM更关注的是提高内存带宽和降低延迟，这一点是为了满足对性能的更高需求。

至于单路服务器的配置方面，英特尔技术专家以至强6性能核举例给出了一定的参考。至强6性能核处理器（6900P产品线）支持单个插槽12个Channel（通道），1 DPC，两个Socket（插槽），因此最大支持的配置为24×256GB，这也是我们目前推荐的最大MRDIMM内存配置。

目前MRDIMM已经纳入JEDEC标准，按照目前MRDIMM路线图预计在未来在8800MT/s的基础上翻倍，以更好地满足下一代处理器的卓越性能。随着核数的增多、处理能力和主频的提升，相应地需要打破“内存墙”、突破内存的容量和性能问题，也会有分别不同的技术来满足未来数据中心建设的需求。

HBM，除了贵没啥毛病

高带宽内存（HBM，High Bandwidth Memory）作为当前存储技术的前沿之一，以其极高的内存带宽在高端计算领域占据了不可或缺的地位。例如，英伟达的A100、H100 GPU及以后、AMD的MI300系列加速卡、以及英特尔的Gaudi 3加速器等产品都广泛采用了HBM技术，这些产品的应用场景通常涉及AI训练、深度学习推理、科学计算以及图形处理等，需要巨大的数据吞吐能力和低延迟的内存访问。对于这些高端计算任务，HBM几乎是必不可少的，它能够通过更快的内存读写速度，确保高效的数据处理和更短的计算周期。

目前，有三家公司生产 HBM 内存模块——美光、三星和SK海力士。其中，SK海力士是出货量最大的供应商，而英伟达是全球最大的HBM买家，全球一半以上的HBM需求都来自于英伟达。

尽管HBM在带宽和性能上表现出色，但其高昂的成本和相对较低的通用性，使得它在广泛应用上仍面临一定的挑战。

据英特尔技术专家的介绍，HBM通常的使用方式是通过封装工艺来集成在CPU或者是GPU，或者是ASIC的芯片里，相对来说通用性没有那么强，成本也会比较高，且容量基本上都会在96GB以内，这是目前主流的情况。在成本方面，因为它要封装，所以会高很多。现在包括海力士等多家厂商，他们在HBM上的投入是非常大的，主要原因之一是AI需求。

随着行业从 HBM3 过渡到 HBM4，制造高水平 DRAM 堆栈的工艺只会变得更加复杂。但供应商和芯片制造商也在密切关注低成本的替代方案，以进一步增加这些极快且必要的内存芯片堆栈的采用。

CXL：兼具灵活性和高性价比

CXL（Compute Express Link）最早是由英特尔所开发，作为近年来崛起的一项新技术，其出现为解决内存带宽和存储扩展提供了新的思路。

尽管CXL的历史仅仅超过三年，但其行业支持已超过之前的几种一致性互连标准，例如CCIX、OpenCAPI和HyperTransport。值得注意的是，尽管CXL最初由Intel开发，AMD仍对其提供了支持并实施了相关技术。AMD的全新Epyc处理器（代号“Genoa”）和Intel的全新Xeon Scalable处理器（代号“Sapphire Rapids”）均引入了Compute Express Link（CXL），标志着新一代内存互连架构的开端。

CXL前端设备的种类正在逐渐丰富，且业界创新层出不穷。回顾2022年，CXL产品还相对较少，但到了2023年及2024年上半年，我们已经看到基于CXL的内存盒子和多种形态的内存设备不断涌现，这些都在拓展CXL的生态。不断扩大的CXL生态系统包括将DDR4或DDR5 DRAM连接到支持CXL的服务器（或主机）的内存控制器（或扩展器）。

“与MRDIMM和HBM相比，CXL的最大优势并不在于极致的带宽和性能，而是它能够提供更高性价比的解决方案”英特尔技术专家指出。CXL是一种兼具灵活性和高性价比的解决方案。在远端，可以通过CXL的内存池进行扩展，而在近端，则可以使用CXL Memory Expander进行本地扩展。这意味着，能够利用一些成本较低的设备，如DDR4内存，来支撑业务系统的运行。

CXL早期采用的重要因素之一是它重用了PCI Express（PCIe）的物理层，从而在不增加处理器引脚数量的情况下实现了I/O灵活性。这种灵活性扩展到插入卡和模块，它们使用与PCIe设备相同的插槽。对于服务器设计师而言，添加CXL支持只需最新的Epyc或Xeon处理器，并关注PCIe通道的分配。

目前CXL标准不断进化，如今已经发展到CXL3.0。不过据Wheeler’s Network发布的《The Evolution of Memory Tiering at Scale》白皮书所讲述，纯CXL 3.x结构的吸引力较低，部分原因在于GPU市场的动态变化。

目前，Nvidia、AMD和Intel的数据中心GPU已经实现了专有的一致性互连，用于GPU之间的通信，同时通过PCIe实现与主机的连接。Nvidia的高端Tesla GPU已经通过其专有的NVLink接口支持内存池化，解决了高带宽内存（HBM）的浪费问题。作为市场领导者，Nvidia可能更倾向于继续使用NVLink，但也可能通过共享通道（serdes）在NVLink和CXL协议之间实现兼容。同样，AMD和Intel或许会在未来的GPU中采用CXL，同时保留各自的Infinity和Xe-Link技术。然而，目前缺乏GPU对高级CXL 3.0功能的支持，这使得其广泛采用存在不确定性，而PCIe Gen6通道速率在现有用例中的应用则毫无争议。在任何情况下，我们预计CXL 3.x的共享内存扩展器将在2027年之前实现大规模出货。

总结

总体来看，HBM、CXL和MRDIMM这三大内存技术各有千秋，分别针对不同的应用场景和需求提供了解决方案。HBM凭借其超高带宽在AI和高性能计算领域占据主导地位，但高成本限制了其普及。相比于HBM，MRDIMM的单条容量较大（可达256GB），且成本更低，因此在AI推理、大规模科学计算等需要大内存的场景中展现出了巨大的应用潜力。CXL作为一种新兴的内存互联技术，凭借其出色的扩展性和灵活性，在未来的数据中心和服务器领域具有广泛前景。

随着这三项技术的不断发展和完善，它们将在未来的数据处理、AI推理、科学计算等领域发挥越来越重要的作用，并推动存储技术的进一步革新。

责任编辑：sophie

申请专栏作者

: 半导体行业观察

: 摩尔芯闻

存储界的“三大金刚”：HBM、MRDIMM与CXL

相关文章

最新新闻

热门文章本日 七天 本月

热门评论

热门搜索

存储界的“三大金刚”：HBM、MRDIMM与CXL

相关文章

最新新闻

热门文章 本日 七天 本月

热门评论

热门搜索

热门文章本日七天本月