[原创] 揭秘DDR5,值得期待吗?
近几年台式电脑内存技术最火的进步无疑是DDR5内存和英特尔第12代酷睿系列处理器的发布。DDR5内存不仅为许多不同的应用提供更高的内存带宽,而且DDR5还提供了内存容量的世代增长,随着时间的推移允许更高容量的UDIMM。
但是,与以往一样,内存市场绝不是同质化的。只有三家真正的DRAM制造商,DIMM供应商正在以一系列的时钟速度提供DDR5,包括官方的JEDEC速度和X.M.P.内存,这两种内存基本上都是开箱即用的。目前常用的DDR5内存配置也有显著的差异,包括单侧内存(1Rx8)和双侧内存(2Rx8),以及不同容量的UDIMM。
在本篇文章中,我们研究了三星的 DDR5-4800 内存,包括 2 x 32 GB、2 x 16 GB 和 4 x 16 GB,以测量单列和双列内存之间的性能差异,以及及DDR5在一个或两个内存通道(DPC)中运行的任何差异。最后,由于我们也有来自 Micron 和 SK Hynix 的 DDR5-4800 DIMM 和 DRAM,我们还将在结果中查看这些,看看这三个内存制造商之间是否存在任何性能差异。
在具体这些分析之前,我们先来了解一下,DDR5究竟改变了什么。
什么是DDR 5?
DDR5规范最初计划于2018年发布,但直到2020年7月才首次亮相,这相对于JEDEC的原定计划有些落后,但并没有降低新存储器规范的重要性。像之前的DDR每次迭代一样,DDR5的主要重点再次是提高内存密度和速度。JEDEC希望将两者都提高一倍,最大内存速度设置为至少6.4Gbps,而单个封装的LRDIMM的容量最终将达到2TB。
一直以来,存在一些较小的更改以支持这些目标或简化生态系统的某些方面,例如,DIMM上的电压调节器以及芯片上的ECC。
(1)变得更大:更密的内存和芯片堆叠
我们首先简要介绍一下容量和密度,因为与DDR4相比,这是对标准最直接的更改。DDR5的设计时间跨度为数年,它将允许单个存储芯片达到64Gbit的密度,这比DDR4的最大16Gbit密度高出4倍。结合die堆叠,可以将多达8个管芯die为一个芯片,那么40个单元的LRDIMM可以达到2TB的有效存储容量。或者对于更不起眼的无缓冲DIMM,这意味着我们最终将看到典型双列配置的DIMM容量达到128GB。
当然,当芯片制造赶上规范允许的范围时,DDR5规范的峰值容量将用于该标准生命周期的后期。首先,内存制造商将使用当今可达到的密度8Gbit和16Gbit芯片来构建其DIMM。因此,虽然DDR5的速度提升将是相当立即的,但是随着制造密度的提高,容量的提升将更加缓慢。
(2)更快:一个DIMM,两个通道
DDR5的另一部分是关于再次增加内存带宽。每个人都希望获得更高的性能(尤其是随着DIMM容量的增长),并且毫不奇怪的是,为了实现这一目标,在规范中进行了大量工作。
对于DDR5而言,JEDEC希望比DDR存储器规范更积极地开始工作。通常,新标准是从上一个标准开始的地方开始的,例如从DDR3到DDR4的过渡,DDR3正式停止在1.6Gbps,而DDR4从那里开始。但是,对于DDR5,JEDEC的目标是更高的,该组织预计将以4.8Gbps的速度推出,比DDR4的官方3.2Gbps最大速度快约50%。在随后的几年中,该规范的当前版本允许的数据速率高达6.4Gbps,是DDR4官方峰值的两倍。
当然,爱好者会注意到DDR4已经超过了官方规定的最大3.2Gbps(有时远高于),并且DDR5最终可能会走类似的路线。不论具体数字如何,其基本目标是使单个DIMM的可用带宽翻倍。因此,如果SK海力士确实在本十年后期实现了DDR5-8400的目标,也不要感到惊讶。
这些速度目标的基础是DIMM和内存总线上的更改,以便每个时钟周期馈送和传输大量数据。与DRAM速度一样,最大的挑战来自DRAM核心时钟速率缺乏进展。专用逻辑仍在变得越来越快,存储器总线也在变得越来越快,但是支撑现代存储器的基于电容器和晶体管的DRAM的时钟频率仍然不能超过几百兆赫兹。
因此,为了从DRAM裸片中获得更多收益(以保持内存本身正在变得越来越快并提供实际上更快的内存总线的错觉),需要越来越多的并行性。DDR5再次提高了赌注。
此处最大的变化是,与我们在LPDDR4和GDDR6等其他标准中看到的情况类似,单个DIMM被分解为2个通道。DDR5不会为每个DIMM提供一个64位数据通道,而是为每个DIMM提供两个独立的32位数据通道(考虑ECC时为40位)。同时,每个通道的burst length从8字节(BL8)翻倍到16字节(BL16),这意味着每个通道每次操作将交付64字节。与DDR4 DIMM相比,以两倍于额定内存速度(相同核心速度)运行的DDR5 DIMM将在DDR4 DIMM传输一个DDR4 DIMM的时间内提供两个64字节操作,从而使有效带宽增加了一倍。
总体而言,内存操作的魔术数字仍然是64字节,因为这是标准高速缓存行的大小。DDR4样式的内存上较大的burst length将带来128字节的操作,这对于单个高速缓存行而言太大,并且如果存储器控制器不希望占用两行的书序数据的值,这充其量会导致效率/利用率损失。相比之下,由于DDR5的两个通道是独立的,因此内存控制器可以从不同的位置请求64个字节,这使其更适合处理器的实际工作方式,并且避免了利用率打折扣(utilization penalty)。
这样一来,对标准PC台式机的最终影响将是,代替今天的DDR4规划,即两个DIMM填充两个通道以进行2x64位设置,而DDR5系统将在功能上表现为4x32位设置。内存仍将成对安装-我们不会回到安装32位SIMM的时代-但现在最低配置是DDR5较小通道中的两个。
这种结构变化还会在其他地方产生连锁反应,尤其是在这些较小的通道中最大化使用。DDR5引入了更细粒度的存储体刷新功能,该功能将允许某些存储体在使用中的同时进行刷新。这样可以更快地进行必要的刷新(电容器充电),从而保持等待时间,并使未使用的存储库尽快可用。存储体组的最大数量也从4个增加到8个,这将有助于减轻顺序存储访问带来的性能损失。
(3)快速总线服务:决策反馈均衡
相比寻找增加DRAM DIMM并行化数量的方法,增加总线速度既简单又困难:这种想法在概念上很简单,在执行上也很困难。最终,要使DDR的内存速度提高一倍,DDR5的内存总线的运行速度必须是DDR4的两倍。
DDR5进行了几处更改以实现这一目标,但是令人惊讶的是,存储总线没有任何大规模的根本更改,例如QDR或差分信令(differential signaling)。取而代之的是,JEDEC及其成员已经能够使用经过稍微修改的DDR4总线版本实现其目标,尽管这种总线必须在更严格的公差范围内运行。
这里的关键驱动因素是决策反馈均衡(Decision Feedback Equalization:DFE)的引入。在非常高的水平上,DFE是一种通过使用来自内存总线接收器的反馈来提供更好的均衡效果来减少 inter-symbol 干扰的方法。更好的均衡又可以使DDR5内存总线以更高的传输速率运行所需的更清晰的信号传输,而不会发生任何故障。同时,标准中的一些较小更改进一步帮助了这一点,例如添加了新的改进训练模式,以帮助DIMM和控制器补偿内存总线上的微小时序差异。
(4)更简单的主板,更复杂的DIMM:DIMM上的电压调节
随着内核在密度和存储速度方面的变化,DDR5再次提高了DDR存储器的工作电压。根据规格,DDR5的Vdd为1.1v,低于DDR4的1.2v。像过去的更新一样,这将提高内存相对于DDR4的电源效率,尽管到目前为止,功耗提升的幅度不如DDR4和早期标准。
JEDEC还在DDR5内存标准中引入来对DIMM的电压调节方式进行相当重要的更改。简而言之,电压调节正从主板移至各个DIMM,而DIMM则负责其自身的电压调节需求。这意味着DIMM现在将包括一个集成的稳压器,并且适用于从UDIMM到LRDIMM的所有内容。
(5)DDR5 DIMM:仍为288针,但引脚排列已更改
最后,正如早期供应商原型中已经广泛证明的那样,DDR5将保持与DDR4相同的288针数。这反映了DDR2到DDR3的过渡,此处的引脚数在240个引脚处也保持相同。
但是,不要期望在DDR4插槽中使用DDR5 DIMM。尽管引脚数没有改变,但引脚排列却是为了适应DDR5的新功能,尤其是其双通道设计。
这里最大的变化是命令和地址总线正在收缩和分区( shrunk and partitioned),其引脚被重新分配给第二个存储通道的数据总线。DDR5将具有两个7位CA总线,而不是单个24位CA总线,每个通道一个。当然,7只是旧总线的一半,因此对于交换的存储控制器来说,事情变得越来越复杂。
使用 DDR5 内存进行扩展
2021年12月,我们使用G.Skill的Trident Z5 2 x 16 GB DDR5-6000 CL36内存套件在不同频率范围内测试了 DDR5 内存的性能可扩展性。我们的研究结果表明,当使用我们对内存最敏感的基准测试之一WinRAR 5.90 时,从 DDR4-4800 CL36 的 JEDEC 设置到 DDR4-6400 CL36 的性能提升了14%。这里的共识是,使用更快的内存确实可以提升我们测试的几乎所有场景。尽管如此,需要注意的是,由于更快的套件价格高昂,目前除了当前的 DDR5-4800 JEDEC 套件之外,没有任何价格/性能最佳点——高速套件的价格溢价目前大于性能好处。
三星 DDR5-4800B CL40 内存 (2 x 32 GB) (2Rx8)
今天的测试:Rank、DPC
和内存制造商重要吗?
由于此前的文章专注于内存频率和延迟,我们想看看 DDR5 性能等式的其他元素。这包括 DIMM 等级、单个内存通道中的 DIMM 数量,甚至内存制造商本身。我们已经看到了当我们使用前两个变量时会发生什么,现在当我们使用其他变量时会发生什么?
专注于 DDR5 DIMM 配置,目前可供使用英特尔第 12 代酷睿系列的消费者使用的 DDR5 内存模块有四种不同的组合。这包括单列 (1Rx8) 和双列 (2Rx8) DIMM,它们通常以两个或四个为一组,分别构成每通道 1 个 DIMM (1DPC) 或每通道 2 个 DIMM (2DPC)。而且,正如我们将在测试中看到的那样,rank 和 DPC 都会影响 DDR5 性能,因此要充分利用 DDR5 内存,不仅仅是频率和延迟。
针对DDR5内存配置,目前使用英特尔第12代核心系列的消费者可获得的DDR5内存模块有四种不同的组合。这包括单列(1Rx8)和双列 (2Rx8)内存,它们通常是2个或4个套件,分别为每个通道1条内存(1DPC)或每个通道2条内存(2DPC)。而且,正如我们将在测试中看到的那样,列和DPC都会影响DDR5的性能,所以要最大限度地利用DDR5内存,不仅仅是频率和延迟。
在本文中,我们想要回答的基本问题是:
1、带 DDR5 内存的 1Rx8 和 2Rx8 性能有区别吗?
2、使用 1DPC 与 2DPC(2x32GB 与 4x16GB)时性能是否存在差异?
3、不同制造商的内存在相同时间的性能是否存在差异?
为了探索DDR5在不同级别和DPC上运行的性能差异,三星发送了两种配置/容量的最新DDR5- 4800b内存:16GB 1Rx8内存和32GB 2Rx8内存。三星电子虽然是世界三大DRAM制造商之一,在存储器市场上占有巨大的市场份额,但这是三星电子首次对消费级UDIMMs进行送样。因此,我们很高兴看到他们自己的内部内存在这方面的表现。
有了三星的内存,我们已经能够在两种不同配置之间进行测试,看看1Rx8和2Rx8在性能上是否更好。我们还能够测量从1DPC迁移到2DPC的影响,随着每一代DDR内存信令变得越来越困难,这总是一个有趣的问题。
Crucial (美光) DDR5-4800B CL40 内存 (2 x 32 GB) (2Rx8)
最后,由于我们已经拥有来自 SK Hynix 和 Micron 的 32 GB (2Rx8) 套件,这也使我们能够在 JEDEC 库存速度下对不同的 DIMM 套件进行真正的比较。使用 JEDEC 时序,所有内存都应该相等,因此这是测试和确认该概念的绝佳机会。此外,额外的 DIMM 让我们可以很好地控制三星 DIMM 的性能,以确保没有任何三星特有的怪事发生。
Ranks & DPCs:快速复习
从 DDR5 UDIMM 的配置来看,主要有两种类型,1Rx8 和 2Rx8。1Rx8 中的 R 代表 rank,所以 1Rx8 意味着它有一个rank,每个rank有8个内存芯片。反过来,2Rx8 意味着有两个rank的8 个内存芯片。实际上,对于今天的 DDR5 DIMM,1Rx8 将是单面 DIMM,而 2Rx8 始终是双面的。我们应该注意到,还有4ge rank (4Rx8) 内存,但这通常在服务器中找到,通常不适用于消费平台(甚至可能一开始就不受支持)。
因为每个级别的芯片数量是固定的,今天可用的第一代DDR5裸片的密度也是固定的,今天DDR5内存的容量与rank的数量成正比。32GB内存为2Rx8专用,共使用16个16Gb dies,而16Gb内存将减少到8个16Gb dies。
当然,在大多数主板上,每个通道 (DPC) 可以安装一个或两个 DIMM。向通道添加第二个 DIMM 可以使系统的总内存容量翻倍——在今天的系统中最高可达 128GB——但它也带来了潜在的性能折衷。在内存控制器上驱动单个内存通道中的多个 DIMM 比驱动单个 DIMM 更难,这意味着超过两个 DIMM 可能是容量和性能之间的权衡,而不是同时增加两者的方法。在尝试构建 64GB 系统时,现在提出了一个特别有趣的问题:使用两个 2Rx8 DIMM 还是四个 1Rx8 DIMM 更好?
三星、SK 海力士和美光 DDR5 制造:差异
在过去的几年里,DDR5内存占用了许多空间;每个内存制造商都有自己的制程来生产其内存 IC。每个不同的内存制造商也有自己的制造工艺和设计应用程序来为内存芯片制造裸片。
我们在本文中测试的所有 DDR5-4800B 内存我喜欢称之为“早期采用者 DDR5”,这意味着它是每个供应商使用的 DDR5 内存的第一次迭代。
在 DDR5 DRAM 的早期版本硅片中,每个封装芯片的尺寸略有不同,因为每个制造商使用其工艺。在三星 UDIMM 上,它使用其 SD1y 节点,芯片封装面积为 73.55 mm²。相比之下,SK 海力士内存 IC 的尺寸为 75.21 mm²,并使用该公司的 D1y 节点,而三者中最小的是 Micron,其封装尺寸为 66.26 mm²,并使用 Micron 的 D1z 节点制造。
展望未来,三巨头都计划在未来使用最新的极紫外 (EUV) 光刻技术来生产更大、更高密度和更快的芯片,其中许多芯片已经处于早期生产阶段。这包括带有 EUV 光刻技术的三星 14 nm 节点,它应该允许 DDR5-7200 内存的大规模生产(希望有一个 JEDEC 标准与之配套)。虽然我们也在处理第一代 DDR5 内存控制器,但例如,英特尔第 12 代核心可达到的速度是有限的。当可以进行进一步的改进时,这应该允许在未来的 PC 平台上使用更快的 DDR5 内存。
ADATA (SK Hynix) DDR5-4800B CL40 内存 (2 x 32 GB) (2Rx8)
测试台和设置
鉴于 DDR5 是一款高级产品,我们选择使用高级平台作为我们的测试平台。这包括英特尔性能最高的酷睿系列处理器酷睿i9-12900K,并与MSI的优质主板微星 MPG Z690 Carbon Wi-Fi 配对。对于我们的测试,我们根据固件将 Intel Core i9-12900K 保留为默认设置,没有对 CPU 核心频率、内存频率或内存延迟进行任何更改。
对于我们的测试,我们使用以下内容:
CPU 性能基准:DDR5-4800
为了显示DDR5内存在不同配置下的性能,我们从测试套件中选择了更有选择性和更简短的基准测试,包括对应用程序打开、渲染、web和压缩的测试。
所有测试都是在默认内存(JEDEC)设置下运行的,即DDR5-4800 CL40,无论配置怎样,比如2x16、2x32和4x16 GB。
-
Web: Speedometer 2
我们用于分析的Web测试是Speedometer 2,它通过一系列JavaScript框架进行测试,用于执行三个简单的操作:构建列表、启用列表中的每个项目以及删除列表。所有框架都实现了相同的视觉提示,但显然是从不同的编码角度应用它们。
我们的测试通过了框架列表,并产生了一个表示“rpm”的最终分数,这是基准测试的内部指标之一。
我们对基准测试进行了12次重复循环,取最后5次的平均值。
在Speedometer中,2RX8/1PDC DDR5-4800套件在所有三星内存中表现最佳,1RX8/1DPC仅次于2 X 32 GB套件。虽然三星1RX8/2PDC(4 X 16 GB)套件在技术上表现最慢,但从上到下的性能差异在3%的误差范围内。
在测试的所有内存中,尽管与其他测试的2 X 32 GB套件相比没有太大区别,但Micron 2 X 32 GB被证明是最好的,
-
AIDA64: 6.60: link
AIDA64 Extreme拥有同类产品中无可匹敌的硬件检测引擎。它提供有关已安装软件的详细信息,以及诊断功能和超频支持。由于它实时监控传感器,可以收集准确的电压、温度和风扇速度读数,同时其诊断功能有助于检测和防止硬件问题。此外,它还提供了两个基准测试,用于测量单个硬件组件或整个系统的性能。同时,它兼容包括Windows 11和Windows Server 2022在内的所有32位和64位Windows版本。
在这个实例中,我们使用AIDA64来收集基于读取速度、写入速度、复制速度和内存延迟的内存带宽数据。
查看AIDA64的原始内存基准测试,所有2 × 32 GB套件的表现都很具有竞争力。与此同时,三星 4 X 16 GB的性能全面下降,读取带宽和写入带宽都受到影响。与使用两个DIMM(1DPC)相比,使用四个DIMM(2DPC)时,还需要考虑显著的延迟损失。
令人意外的可能是三星2 X 16 GB(1rx8)套件。虽然它在读取速度方面具有竞争力,但在写入速度、全面拷贝方面略有下降。在公认的以内存为中心的测试中,这是一个非常早期的指标,表明双列DIMM在性能方面是最佳的,失去一个排名确实会招致惩罚。所有这些都会因进入2DPC而进一步下降。
-
WinRAR 5.90: link
我们所用的2013年版本的WinRAR测试在2014年初更新为最新版本。我们将一组2867个文件压缩到320个文件夹中,总共1.52 GB——其中95%的文件是小型典型网站文件,其余是30秒720p的小型视频。
从WinRAR性能来看,显示出了更高密度的2RX8内存的优势。在2RX8中使用16 GB芯片的套件性能优于16 GB 1RX8,在2DPC配置中,2 X 16 GB 三星套件的性能明显优于使用4个UDIMM运行的相同内存。
-
Rendering - Blender 2.79b: 3D Creation Suite
Blender是一款备受瞩目的渲染工具,由于它是开源的,允许大量的可配置性,并被世界各地众多知名动画工作室使用。该组织最近发布了一个Blender基准包,几周前,我们缩小了对新套件的Blender测试范围,但他们的测试时间依然需要一个多小时。为了得到想要的结果,我们通过命令行运行该套件中的一个子测试-CPU模式下的标准“BMW27”场景,并测量完成渲染所需的时间。
在渲染方面,2 X 32和2 X 16 GB套件之间的差异很小。4 X 16 GB的三星套件在技术上是表现最差,但出于实际目的,所有5个套件可能也是捆绑的。
-
Rendering – Cinebench R23: link
多年来,Maxon的真实世界和跨平台CINEBENCH测试套件一直是基准测试和渲染性能的主要工具。最新版本是R23版本,该版本基于最新的23代码,使用了更新的编译器。作为真实世界的系统基准测试,该版本包含常见任务和渲染工作负载,而不是仅基于某些CPU功能进行测量不怎么多样化的基准测试。CINEBENCH R23还可以测量单线程和多线程性能。
使用CIneBench 23,在单线程测试中,2 × 32gb套件之间没有太大的差异。在多线程测试中,三星2 X 16 GB套件的性能实际上优于2 X 32 GB套件,这表明所有套件基本上都被绑定在这个工作负载中。
-
Rendering – POV-Ray 3.7.1: Ray Tracing - link
The Persistence of Vision Ray Tracer (POV-Ray),是一个免费的软件包,顾名思义,用于光线跟踪。它是一个纯粹的渲染器,而不是建模软件,但最新的beta版本包含了一个方便的基准测试,用于在一个平台上强调所有处理线程。我们在主板评论中用此来测试内存在各种CPU速度下的稳定性,效果良好-如果通过测试,则CPU中的IMC在给定的速度下是稳定的。作为CPU测试,它在高端平台上运行大约1-2分钟。
在POV-Ray测试中,美光套件的表现略好于其他产品,三星的2 x 32 GB套件紧随其后,用16GB记忆棒测试的两种变体都略微落后于其更高密度的对应物。使用4个16 GB内存棒的性能与使用2个内存棒的性能相比,下降了约0.36%。
游戏性能基准:DDR5-4800
为了展示DDR5内存在不同配置下的性能,我们从测试套件中选择了更有选择性和更简短的基准测试。这包括Civilization VI, Grand Theft Auto V和Strange Brigade (DirectX 12)。
所有测试都是在所有默认内存(JEDEC)设置(即DDR5-4800 CL40)下运行的,无论配置如何,例如2x16、2x32和4x16 GB。
-
Civilization 6
最初由Sid Meier和他的团队编写的Civilization 系列回合制策略游戏是一款经典之作,它是许多人通宵达夜试图让甘地向你宣战的借口。说实话,我从未玩过第一版,但从第二版到第六版,我都玩过,包括由已故的伦纳德·尼莫伊(Leonard Nimoy)配音的第四版,这是一款很容易上手但很难精通的游戏。
Civilization的基准设定总是有点矛盾——对于回合制策略游戏来说,帧率并不一定是最重要的内容,即使在适当的情况下,帧率低至5帧/秒也足够了。但在“Civilization 6”中,Firaxis采用硬核视觉逼真度,试图将玩家拉入游戏中。因此,Civilization在我们处理细节时可能会消耗图像和CPU,特别是在DirectX 12中。
尽管游戏通常是GPU瓶颈而不是CPU/内存瓶颈,但在我们的Civ VI测试中,我们确实发现了一些微小但具有统计学意义的差异。2 × 32 GB套件是其中表现最好的,三星2 × 16 GB套件运行略慢。然而,三星4 × 16 GB的套件的每秒执行速度比其他套件慢了几帧,比2 × 32 GB的三星套件慢了3%以上。
-
Grand Theft Auto V
备受期待的Grand Theft Auto系列游戏于2015年4月14日上架,AMD和NVIDIA都在帮助优化游戏。在这一点上,Grand Theft Auto V是超级古老的,但仍然是超级有用的基准-它是一个复杂的测试,具有许多现代游戏仍然难以解决的功能。随着GTA6即将问世的传言,希望 Rockstar 能够像这个基准一样简单易用。
GTA不提供图形预设,但通过使用Rockstar在DirectX 11下的高级游戏引擎,为用户提供了更多的选择,并将最困难的系统推向极限。无论用户是在高山中长途飞行,还是在城市中处理各种垃圾,当打开最大容量时,它都会创造出令人惊叹的视觉效果,但这对于CPU和GPU来说都是一项艰巨的工作。
游戏内部基准包括5个场景:4个带有不同光线和天气效果的短镜头,以及第5个持续约90秒的动作序列。我们只使用基准的最后一部分,它结合了一架喷气式飞机的飞行场景,然后是市内驶过几个十字路口,然后是撞击一架爆炸的加油机,导致其他汽车也爆炸。这是一个混合了距离渲染和详细的近渲染动作序列的游戏,值得庆幸的是,游戏标题提供了帧时间数据。基准测试也可以从命令行调用,这使得它非常容易使用。
使用Grand Theft Auto V内置的1080p基准测试,所有的JEDEC DDR5-4800B套件彼此之间都表现得很有竞争力——尽管由于游戏的本质,其变化程度比通常更高。尽管如此,在我们的4K测试中,我们看到三星4 × 16 GB的套件再次出现在后面,这一次落后于2 × 32 GB的套件7%。
-
Strange Brigade (DX12)
Strange Brigade改编自1903年的埃及电影,故事情节与“木乃伊”系列电影非常相似。这款第三人称射击游戏是由Rebellion Developments开发的,该公司以Sniper Elite和Alien vs Predator系列等游戏而广为人知。游戏追踪追捕再次出现的女巫女王Seteki,以及最终能够阻止她的唯一“部队”之后进行的。游戏玩法以合作为中心,有各种不同的关卡和许多谜题,需要英国殖民时期的特勤局特工来解决,以结束其野蛮和残暴的统治。
该游戏同时支持DirectX 12和Vulkan API,并拥有自己的内置基准,提供各种自定义选项,包括纹理,抗锯齿,反射,绘制距离,甚至允许用户开启或关闭运动模糊,环境遮挡和镶嵌等。AMD曾吹嘘,Strange Brigade是其Vulkan API实现的一部分,为AMD多显卡配置提供了可扩展性。在我们的测试中,我们使用了directx12基准测试。
我们在 Strange Brigade Direct X12 测试中的 2 x 32 GB 套件之间的测试没有太大差异。在4K,三星4 × 16GB再次运行略慢于其他,三星的2 × 16GB配置与2 × 32GB套件运行一致。
结论
在为新系统选择内存套件时,市场上有很多选择,包括速度、散热器设计、RGB或无RGB 以及容量。在 DDR5 内存方面,目前唯一可以使用它的平台是英特尔的第 12 代酷睿系列,其主要产品与 Z690 芯片组一起提供。如果 AMD 的 Zen 4 架构推出,这种情况可能会在今年晚些时候发生变化,但现在,DDR5市场和 Alder Lake 市场是一回事。
在本文中,我们重点研究了DDR5在不同等级和每通道配置的DIMM中的性能差异(或缺乏差异)。虽然这些元素在 DDR5 性能中的影响小于频率和时钟速度,但正如我们所发现的,它们确实对内存子系统性能产生了有意义的影响,从而对整体系统性能产生了影响。
(1)三星 DDR5-4800B:1Rx8 (1DPC/2DPC) 与 2Rx8 (1DPC)
在直接针对 4 x 16 GB (1Rx8) 套件测试三星的 2 x 32 GB (2Rx8) 套件时,我们在英特尔酷睿 i9-12900K 处理器以 JEDEC 速度运行时得到了一些有趣的结果。
在基准测试结果中差异明显的情况下,在我们对内存性能和吞吐量非常敏感的 WinRAR 5.90 测试中,三星 DDR5-4800 4 x 16 GB 套件的性能比其更高密度的 2 x 32 低 9% GB对应,这是相当大的一个下降。即使在 1DPC 配置中,具有单列内存的 2 x 16 GB 套件与双列套件相比也确实存在缺陷。这表明使用 1DPC 在内存敏感的应用程序中比 2DPC 产生更好的性能。同时,三星 DDR5-4800B 2 x 32 GB 配置在与 SK 海力士和美光套件相比的可靠误差范围内执行。
在一些游戏测试中情况也大致相同,三星 4 x 16 GB 套件的性能优于 2 x 32 GB 套件,甚至是三星 2 x 16 GB 套件,后者与单列4 x 16 GB UDIMM组合相同。虽然在4K低配置下,《侠盗猎车手V》的性能命中率只有2-3%左右,但在我们的测试中,从性能的角度来看,英特尔的Alder Lake在两根内存条对四根内存条的情况下似乎表现得更好。
在我们的大多数测试中,很明显,在大多数情况下,在1DPC配置中使用两个更高密度的2Rx8条,相对于在4个配置中使用相同容量的2DPC配置(1Rx8在2DPC),整体性能更好。即使只看1DPC的配置,双列仍然更好,尽管程度较小。
深入了解这些结果,2Rx8 优于 1Rx8 的主要原因归结为集成内存控制器一次只能访问一个级别。因此,在双列 DIMM 中,可以使用列交错,这允许第二列内存芯片准备好立即访问。即使在理论基础上差异也很小,但正如我们所见,它们并不为零:列交错减少了管道刷新周期中的响应时间,这可能意味着对延迟敏感的应用程序或应用程序将有更高的性能能够将 DDR5 推至其整体带宽限制。
(2)三星 vs SK 海力士 vs 美光 32GB DDR5-4800B
看看三星、SK 海力士和美光在 DDR5-4800B 上运行的 2 x 32 GB 套件的性能,在所有实际用途上都不存在差异。我们在测试中没有发现任何有意义的性能差异,这意味着性能并不是三个内存制造商之间的区别因素——至少在 JEDEC 设置与 Alder Lake 之间是这样。考虑到相同的时间和容量,这并不出人意料。这基本上是我们测试的零假设,表明至少从完全合格的时钟速度的性能角度来看,不同的DRAM制造商之间没有天生的性能差异。
因此,这里很容易给出建议,如果用户计划使用 JEDEC 级 DD5 内存构建 Intel 第 12 代 Core 系列设置,他们应该选择经过验证的 DIMM 供应商中最便宜的选项。对于台式机而言,DIMM 在功能上是相同的,而现在 DDR5 内存本身仍然相当昂贵。尽管库存比去年多得多,而且它仍然是一个相对较新的平台,因此也增加了成本。
(3)最后的想法:64GB 的 2Rx8 和 1DPC 优于 64GB 的 1Rx8 和 2DPC
本文要注意的最重要的事情之一是,三星、SK Hynix 或基于美光的 2 x 32 GB DDR5-4800B 内存套件之间的性能实际上没有任何差异。尽管使用了来自每个供应商的不同内存 IC,但所有这些套件都表明 2Rx8 DDR5 内存的性能优于 1Rx8 DDR5。
我们没有测试的唯一方面是使用 JEDEC 级套件超频headroom,这并不是我们真正想要的文章基础角度。鉴于在任何给定 DIMM 上超频的结果就像彩票一样,我们将更多地测试自己的运气而不是测试硬件。在这些情况下,需要大量的样本来获取有用的数据,这就是专用内存供应商使用他们的二进制进程的原因。
我们从ADATA、G.Skill和TeamGroup等供应商那里了解到,在DDR5的额定电压为1.1v以上时,三星和SK海力士的当前一代部件显示出更大的频率和延迟空间。这就是为什么DDR5-6000(及以上)套件不使用美光芯片的原因。但这种情况在未来可能会改变,因为这三家公司都在展望未来的生产工艺,包括EUV光刻。
2 x 32 GB DDR5-4800B 内存套件在相同频率/延迟下优于 4 x 16 GB 套件、
至于今天的测试,我们的结果非常清楚:双列内存是可行的方法,尽可能坚持每个通道使用单个 DIMM。
在我们的测试中,最显着的性能差异是在比较 1DPC 配置中的两个三星 1Rx8 DDR5-4800B 记忆条与 2DPC 配置中的四个相同记忆条时发现的。在那里,我们发现 1DPC 配置在每种情况下都基本相同或更好。使用四根内存条意味着数据必须沿着内存走线走得更远,再加上与两个 DIMM 通信的开销,导致内存性能下降以及延迟明显增加。
而1Rx8和2Rx8虽然差别不大,但我们发现还是有区别的,有利于双列内存。由于列交错,单列内存与双列内存相比处于轻微劣势,至少在今天的 Alder Lake 系统上是这样。
基于此数据,我们建议寻找 64 GB DDR5 内存的用户选择 2 x 32 GB,而不是使用 4 x 16 GB 配置。除了提供最佳性能外,2 x 32 GB 路由还为用户留出了空间,可以根据需要添加额外的容量。另外,如果用户想进一步超频,超频四根内存条对处理器的 IMC 来说是出了名的压力——而 DDR5 只会让情况变得更糟。
否则,就 2 x 32 GB 套件而言,在 Micron、SK Hynix 和三星的 DDR5-4800B 套件之间进行选择主要取决于可用性和价格。DRAM 是一种真正的商品产品,从各个方面来说,因此对于这些 JEDEC 标准套件,除了价格之外没有什么可竞争的。
★ 点击文末 【阅读原文】 ,可查看本篇原文链接!
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3007内容,欢迎关注。
推荐阅读
半导体行业观察
『 半导体第一垂直媒体 』
实时 专业 原创 深度
识别二维码 ,回复下方关键词,阅读更多
晶圆|集成电路|设备 |汽车芯片|存储|台积电|AI|封装
回复
投稿
,看《如何成为“半导体行业观察”的一员 》
回复 搜索 ,还能轻松找到其他你感兴趣的文章!
- 半导体行业观察
- 摩尔芯闻