存储界的“三大金刚”:HBM、MRDIMM与CXL

2024-12-05 13:25:50 来源: 杜芹

当下,存储界有三大前沿技术,分别是HBM、CXL、MRDIMM。HBM想必大家都已经很熟悉,伴随着英伟达GPU的爆火,HBM也着实秀了一波。CXL是近两三年才出现的“新事物”,它是一种新的内存互联技术,但是其发展速度毫不逊色,其行业支持已超过之前的几种一致性互连标准。而MRDIMM这项内存技术,则随着英特尔至强6的发布,开始被业界关注。
 
“锦上添花”的MRDIMM内存技术
 
今年9月底,英特尔发布了全新的英特尔至强6性能核处理器,伴随这个产品发布也带来了亮点技术,其中一个就是内存技术MRDIMM(Multiplexed Rank DIMM)。使用了MRDIMM的至强6可以达到8800MT/s的数据速率,与DDR5最高端的6400MT/s、主流的4400MT/s或4800MT/s相比,MRDIMM所带来的性能加持,不管是从带宽还是延时都会有显著地提升。
 
与英特尔技术专家交流过后,我们才了解到,原来英特尔的MRDIMM技术,从原型设计到如今正式发布已经有很多年了,之所以在至强6这一代支持MRDIMM,主要基于对性能和收益的平衡,并且和现有DDR5实现兼容。
 
MRDIMM的概念听起来很简单,即将两个DDR5 DIMM组合起来,为主机提供两倍的数据速率。那么,MRDIMM从技术上是怎样实现的呢?
 
根据英特尔技术专家的详细介绍,通常情况下,RDIMM内存模块有一个或两个Rank(阵列)。当存在两个Rank时,普通DRAM会分开访问,每次读写操作仅有一个阵列处于活跃状态,另一个阵列则处于闲置状态。而MRDIMM则能让两个阵列同时处于活跃状态,通过片上数据缓冲区实现128字节在两个阵列间的同步操作。
 
虽然这一原理看似简单,但在工程实现过程中却面临诸多的技术难题。英特尔技术专家介绍了其中很重要的一点是,片上数据缓冲区的引入也带来了不小的挑战。尽管DRAM颗粒本身已经非常高速,但英特尔在此基础上增加了一个缓冲区(buffer),以处理128字节的数据传输,并且与控制器联动,同时满足RAS需求,确保数据的完整性和一致性。这不仅仅是简单地将数据分发到两个Rank,还需要在整个工程实现过程中进行大量的创新与协作。
 
从技术优势上来看,MRDIMM的单条容量可以达到256GB,这意味着它在容量上远超HBM,同时成本也更为低廉。在AI推理或模型调优的场景中,尤其是在需要大内存容量的应用,如RAG(Retriever-Augmented Generation)时,MRDIMM既能提供高性能的表现,又能满足更大的内存需求,同时适应更加通用的应用场景,特别是在AI和科学计算领域表现尤为突出。
 
MRDIMM的优势还在于,由于它兼容DDR5插槽,从而具有更好的通用性。这种兼容性带来了诸多好处,比如服务器整机设计,包括散热系统的设计,可以统一考虑并采用统一的处理方案。
 
MRDIMM的引入旨在满足AI、科学计算等工作负载的需求,也适用于内存数据库等关键应用场景中。对于AI等内存带宽敏感型应用,MRDIMM提供了显著的优势。然而,对于对内存带宽需求不高的应用,主要依赖计算得出结果的应用,使用MRDIMM并不会带来额外的收益。简而言之,MRDIMM的价值在于其对内存带宽的优化,而非单纯的计算或存储能力。
 
因此,当前MRDIMM主要应用于那些对内存带宽要求较高的服务器端场景,为数据中心“锦上添花”。
 
在内存厂商领域,目前三星、SK海力士、美光都推出了相应产品。英特尔技术专家表示,MRDIMM的主要目标是提升性能。虽然当前各大内存厂商的产品规划中,MRDIMM覆盖了32GB、48GB、64GB、96GB、128GB和256GB等常见内存容量,但市场上DDR5内存已经能达到512GB甚至更大容量。然而,与其单纯追求内存容量的提升,MRDIMM更关注的是提高内存带宽和降低延迟,这一点是为了满足对性能的更高需求。
 
至于单路服务器的配置方面,英特尔技术专家以至强6性能核举例给出了一定的参考。至强6性能核处理器(6900P产品线)支持单个插槽12个Channel(通道),1 DPC,两个Socket(插槽),因此最大支持的配置为24×256GB,这也是我们目前推荐的最大MRDIMM内存配置。
 
目前MRDIMM已经纳入JEDEC标准,按照目前MRDIMM路线图预计在未来在8800MT/s的基础上翻倍,以更好地满足下一代处理器的卓越性能。随着核数的增多、处理能力和主频的提升,相应地需要打破“内存墙”、突破内存的容量和性能问题,也会有分别不同的技术来满足未来数据中心建设的需求。
 
HBM,除了贵没啥毛病
 
高带宽内存(HBM,High Bandwidth Memory)作为当前存储技术的前沿之一,以其极高的内存带宽在高端计算领域占据了不可或缺的地位。例如,英伟达的A100、H100 GPU及以后、AMD的MI300系列加速卡、以及英特尔的Gaudi 3加速器等产品都广泛采用了HBM技术,这些产品的应用场景通常涉及AI训练、深度学习推理、科学计算以及图形处理等,需要巨大的数据吞吐能力和低延迟的内存访问。对于这些高端计算任务,HBM几乎是必不可少的,它能够通过更快的内存读写速度,确保高效的数据处理和更短的计算周期。
 
目前,有三家公司生产 HBM 内存模块——美光、三星和SK海力士。其中,SK海力士是出货量最大的供应商,而英伟达是全球最大的HBM买家,全球一半以上的HBM需求都来自于英伟达。
 
尽管HBM在带宽和性能上表现出色,但其高昂的成本和相对较低的通用性,使得它在广泛应用上仍面临一定的挑战。
 
据英特尔技术专家的介绍,HBM通常的使用方式是通过封装工艺来集成在CPU或者是GPU,或者是ASIC的芯片里,相对来说通用性没有那么强,成本也会比较高,且容量基本上都会在96GB以内,这是目前主流的情况。在成本方面,因为它要封装,所以会高很多。现在包括海力士等多家厂商,他们在HBM上的投入是非常大的,主要原因之一是AI需求。
 
随着行业从 HBM3 过渡到 HBM4,制造高水平 DRAM 堆栈的工艺只会变得更加复杂。但供应商和芯片制造商也在密切关注低成本的替代方案,以进一步增加这些极快且必要的内存芯片堆栈的采用。
 
CXL:兼具灵活性和高性价比
 
CXL(Compute Express Link)最早是由英特尔所开发,作为近年来崛起的一项新技术,其出现为解决内存带宽和存储扩展提供了新的思路。
 
尽管CXL的历史仅仅超过三年,但其行业支持已超过之前的几种一致性互连标准,例如CCIX、OpenCAPI和HyperTransport。值得注意的是,尽管CXL最初由Intel开发,AMD仍对其提供了支持并实施了相关技术。AMD的全新Epyc处理器(代号“Genoa”)和Intel的全新Xeon Scalable处理器(代号“Sapphire Rapids”)均引入了Compute Express Link(CXL),标志着新一代内存互连架构的开端。
 
CXL前端设备的种类正在逐渐丰富,且业界创新层出不穷。回顾2022年,CXL产品还相对较少,但到了2023年及2024年上半年,我们已经看到基于CXL的内存盒子和多种形态的内存设备不断涌现,这些都在拓展CXL的生态。不断扩大的CXL生态系统包括将DDR4或DDR5 DRAM连接到支持CXL的服务器(或主机)的内存控制器(或扩展器)。
 
“与MRDIMM和HBM相比,CXL的最大优势并不在于极致的带宽和性能,而是它能够提供更高性价比的解决方案”英特尔技术专家指出。CXL是一种兼具灵活性和高性价比的解决方案。在远端,可以通过CXL的内存池进行扩展,而在近端,则可以使用CXL Memory Expander进行本地扩展。这意味着,能够利用一些成本较低的设备,如DDR4内存,来支撑业务系统的运行。
 
CXL早期采用的重要因素之一是它重用了PCI Express(PCIe)的物理层,从而在不增加处理器引脚数量的情况下实现了I/O灵活性。这种灵活性扩展到插入卡和模块,它们使用与PCIe设备相同的插槽。对于服务器设计师而言,添加CXL支持只需最新的Epyc或Xeon处理器,并关注PCIe通道的分配。
 
目前CXL标准不断进化,如今已经发展到CXL3.0。不过据Wheeler’s Network发布的《The Evolution of Memory Tiering at Scale》白皮书所讲述,纯CXL 3.x结构的吸引力较低,部分原因在于GPU市场的动态变化。
 
目前,Nvidia、AMD和Intel的数据中心GPU已经实现了专有的一致性互连,用于GPU之间的通信,同时通过PCIe实现与主机的连接。Nvidia的高端Tesla GPU已经通过其专有的NVLink接口支持内存池化,解决了高带宽内存(HBM)的浪费问题。作为市场领导者,Nvidia可能更倾向于继续使用NVLink,但也可能通过共享通道(serdes)在NVLink和CXL协议之间实现兼容。同样,AMD和Intel或许会在未来的GPU中采用CXL,同时保留各自的Infinity和Xe-Link技术。然而,目前缺乏GPU对高级CXL 3.0功能的支持,这使得其广泛采用存在不确定性,而PCIe Gen6通道速率在现有用例中的应用则毫无争议。在任何情况下,我们预计CXL 3.x的共享内存扩展器将在2027年之前实现大规模出货。
 
总结
 
总体来看,HBM、CXL和MRDIMM这三大内存技术各有千秋,分别针对不同的应用场景和需求提供了解决方案。HBM凭借其超高带宽在AI和高性能计算领域占据主导地位,但高成本限制了其普及。相比于HBM,MRDIMM的单条容量较大(可达256GB),且成本更低,因此在AI推理、大规模科学计算等需要大内存的场景中展现出了巨大的应用潜力。CXL作为一种新兴的内存互联技术,凭借其出色的扩展性和灵活性,在未来的数据中心和服务器领域具有广泛前景。
 
随着这三项技术的不断发展和完善,它们将在未来的数据处理、AI推理、科学计算等领域发挥越来越重要的作用,并推动存储技术的进一步革新。
责任编辑:sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论