[原创] 为新一代异构计算架构搭桥,新思在里面扮演什么角色?
2020-08-17
14:00:04
来源: 半导体行业观察
5G与AI的到来催生了无数全新的应用,这些应用带来大量数据,促使加速器的使用量大幅增加,形成了数据中心异构计算的趋势。
这种趋势意味着,越来越多不同类型的处理器和协处理器必须有效地协同工作,同时共享存储器。这种分解可能导致系统由于在加速器上占用大量内存而遭遇严重的瓶颈,并且始终都需要与主机共享该存储器以避免不必要的和过度的数据复制。
此前有相关文章提到,普通电脑用户也许偶尔有借用显存的需求,不过这种需求不强烈,在某种程度上也很容易做到,显存基本上都会被映射到PCI的mmio地址空间中,一个简单的驱动就可以将它们映射到普通的地址空间中,但如果在其上运行任何banchmark软件你就会发现性能相当差。
更重要的是,服务器用户有巨大的内存池和数量庞大的基于PCIe运算加速器,每个上面都有很大的内存。内存的分割已经造成巨大的浪费、不便和性能下降。为此,业界采用让加速器与处理器进行高性能连接的方法,在理想情况下,它们可以共享同一个内存空间以减少开销、降低延迟。
事实上,在未来,互连技术将会变得越来越重要,因为在新兴应用程序中处理数据需要在CPU,GPU,FPGA,网络和其他加速器中部署的标量,矢量,矩阵和空间架构的多种组合。CXL是互连技术的一个很好的例子,该互连技术旨在解决CPU和专用加速器不断增长的高性能计算工作负载。
CXL(Compute Express Link)是一项雄心勃勃的新互连技术,可以实现CPU与GPU、FPGA等(数据中心)专用加速芯片间的快速连接,推动下一代数据中心的性能。助力每个设备之间的资源共享,提高多个设备之间的共享操作和数据的效率,降低延迟,保留其物理层的简单性和适应性,是用于数据中心环境中的可移动高带宽设备(例如基于GPU的计算加速器)。
AI,多媒体,图像和语言处理,加密等多方面的新兴数据处理应用程序将从CXL中受益匪浅。例如显卡、GPU计算加速器和高密度计算卡。所有这三种CXL事务层协议都与此类设备相关。接下来是FPGA和NIC。CXL.io和CXL.cache在这里很重要,因为网络堆栈是由NIC本地的处理器处理的。最后,还有所有重要的内存缓冲区,未来的数据中心将由成千上万台物理机和加速器之间共享的巨大内存池组成。
CXL在CPU和工作负载加速器(例如GPU,FPGA和网络)之间创建了高速,低延迟的互连。CXL保持了设备之间的内存一致性,从而允许资源共享以实现更高的性能,降低的软件堆栈复杂性并降低总体系统成本。
尽管存在其他互连协议,但CXL在单一技术中提供CPU /设备内存一致性,降低设备复杂性以及行业标准的物理和电气接口的独特性,以提供最佳的即插即用体验。
英特尔数据中心执行副总裁兼总经理Navin Shenoy在一篇博客文章中说,CXL将消除CPU和数据中心专用加速器芯片之间的瓶颈。
我们最初看到关于CXL的消息是在去年Hot Interconnects会议上,英特尔进行了技术演示并阐明了CXL的具体细节。
在协议具体应用方面,CXL官方给出的解释为:CXL 1.0版本支持CPU、硬件平台和加速芯片(如GPU、FPGA和其他专用加速器解决方案)之间的高速、高效互连。该技术建立在PCI-Express(PCIe)基础上,利用PCIe 5.0物理和电气接口在I/O协议、内存协议(最初允许主机与加速器共享内存)、一致性界面三方面提供协议支持。
不难发现,CXL的推出与PCIe 5.0协议绑定,不过目前该协议尚不可用。今年早些时候,英特尔曾透露,明年也许会在产品上引入PCIe 5.0。
在此之前,PCI-Express 4.0于2017年问世,目前仍仅支持两种处理器-IBM的Power9和AMD的“罗马” Epyc 7002,而更早之前的PCIe 3.0于2010年推出。实际上,5.0紧跟4.0之后,许多产品可能会简单地跳过4.0版本并直接升级到5.0。PCIe的每个版本都将吞吐量提高了一倍,5.0版本的吞吐量为63 GB/s,采用16通道实现。相比之下,2003年PCIe 1.0的16通道吞吐量为4 GB/s。
回到1992年英特尔的原始PCI的规格,当时,32位总线的时钟速率为33.33MHz,数据速率为133MB/s。当然,最初的PCI使用并行同步数据线,时钟和总线仲裁问题限制了吞吐量。所有的PCIe规范都依赖于高速串行数据传输,每个连接的设备都有一对专用的全双工传输线和接收线。与现代串行链路一样,时钟被嵌入到数据流中,消除了对外部时钟线的需要。在限制通道倾斜的条件下,采用多通道来提高吞吐量,从而使控制器能够重新组合条带数据。
说回PCIe 5.0,新思科技(Synopsys)高级市场经理Gary Ruggles指出,数据中心近年来发生巨大变化,尤其是在部署408万千兆位超大规模数据中心的过程中,对PCIe 5.0的需求开始迅猛增长。旧的 PCI Express (PCIe) 技术正在加速向最新的 5.0 版本过渡,片上系统 (SoC) 设计人员会发现推出速度比使用 PCIe 4.0 时更快。
在此前Synopsys 举办的网络研讨会上,观众的问卷调查答案显示,虽然许多 PCIe 4.0 设计的启动工作井然有序,但一些设计人员正在跨过 PCIe 4.0 并直接转向 PCIe 5.0 设计。调查还显示,许多尚未改用 PCIe 5.0 设计的人员也会在未来 12 个月内改用。最近完成的 PCIe 基础规范 5.0 版本现在能够以高达 32GT/s 的速度实现 CPU 和外设的互连。
PCIe 5.0 发布已经有一段时间了,但是相关硬件产品迟迟没有问世,这其中有市场因素,但是PCIe 5.0的技术难度也是其中一个原因。正如前文所言,PCI Express实际上是一种标准接口,用于I/O链接,并帮助提高数据传输速率。在不断升级中,要达到PCIe 5.0为标准的32GT/s的速度将达到挑战。
对于系统设计师来说,印刷电路板(PCB)的走线、连接器、电缆乃至IC封装都是系统级的带宽限制因素,它们使得高数据速率的设计变得具有挑战性。高信号频率增加了铜损和功率损耗,这会导致传输距离减小。另外,更高信号频率中存在的通道损失会导致信号完整性(SI)问题。
为了验证其设计,系统设计人员必须与信号完整性工程师、封装设计人员、SoC设计人员以及电路板布局设计人员密切合作,对其通道中的每个组件进行建模,并验证其整个端到端性能。
对于PHY设计师来说,对16GT/s PHY设计进行渐进式改进在大多数应用中并不足以满足PCIe 5.0通道要求。由于在 32GT/s 速度下信道损耗显著增加,发射器(TX)和接收器(RX)中的均衡电路需要显著的改进。另外,更严格的抖动参数和抖动限制以及回波损耗规格也要求在TX和RX中重新设计许多子电路。
PCIe PHY 设计必须包含独特的架构,配备经过验证的模拟前端、连续时间线性均衡器和先进的多抽头决策反馈均衡器,可以无缝协作以缓解设计问题。PHY 和控制器的集成需要更仔细的规划,才能确保 PIPE 接口的兼容性,并且方便完成 1GHz 时的时序收敛。
为了实现最高性能,必须仔细选择和管理几个 PCIe 5.0 控制器配置选项。应探索进行架构权衡,平衡最大有效载荷大小、读取请求大小、标签数量和其他重要的控制器配置设置。必须对芯片和封装进行仔细的信号和电源完整性分析,并且必须仿真整个信道,确保在 32 GT/s 时达到性能目标。在更高的数据速率下解决信号完整性、封装和通道性能等问题需要在多个领域具备充分能力。
简而言之,SoC 设计人员将面临例如增多的信道损耗、复杂的控制器考量、PHY 和控制器集成、封装和信号完整性问题以及建模和测试要求等多种关键设计挑战。因此越来越多的片上系统(SoC)设计人员采用经过验证的第三方IP来进行成功的IC集成。
作为半导体IP头部厂商,新思显然已经考虑到了这些。报道称,此前,新思推出了适用于 PCIe 5.0 的 Synopsys DesignWare® IP 全套解决方案包含控制器、PHY 和验证 IP。该解决方案以32GT / s的数据速率运行,可为云计算,存储和AI SoC提供低延迟和高性能的实时数据连接。
经过硅验证的IP支持 PIPE 4.4.1 和 5.1.1 规范,使用的架构可承受超过 36dB 的信道损耗,并能直接实现 1GHz 的时序收敛。这种控制器具有高度可配置性,支持多种数据路径宽度,包含经过硅验证和测试的 512 位架构,并具有业界最广泛的 RAS-DES 功能,可实现无缝启动和调试。这种经过硅验证的解决方案已被众多客户采用,可提供准确仿真 PCIe 系统所需的完整 IBIS-AMI 模型。
采用新思以数十年PCIe专业知识为基础的面向PCIe 5.0的IP,SoC设计人员可以尽早启动其32GT/s 的设计。
当实现具有32Gbit / s带宽的PCIe Gen 5时,CXL总线协议就可以在其上运行。最早的PCIe Gen 5系统以及CXL将于2021年问世。总体思路是PCIe 5.0 + CXL将用于高性能数据中心服务器,而PCIe 4.0仅用于性能较低的服务器和台式机/笔记本电脑/工作站系统。
CXL方案中有三个子协议,它们可以在CXL导线上同时使用。它们是CXL.io,CXL.cache和CXL.memory。
CXL.io 协议本质上是经过一定改进的 PCIe 5.0 协议,用于初始化、链接、设备发现和列举以及寄存器访问。它为 I/O 设备提供了非一致的加载/存储接口。
CXL.cache 协议定义了主机和设备之间的交互,允许连接的 CXL 设备使用请求和响应方法以极低的延迟高效地缓存主机内存。
CXL.memory 协议提供了主机处理器,可以使用加载和存储命令访问设备连接的内存,此时主机 CPU 充当主设备,CXL 设备充当从属设备,并且可以支持易失性和持久性存储器架构。
凭借 PCIe 5.0的强大基础设施,以及高带宽的支持下,CXL使加速器和CPU之间实现更加连贯的内存共享,促进了异构计算中专用加速器和通用CPU的协同工作。
英特尔研究员、英特尔I/O技术与标准主管Debendra Das Sharma博士指出:“Compute Express Link是新一代异构计算架构的关键促成因素,在这些架构中,CPU和加速器配合使用以提供最先进的解决方案。在新思科技等领先IP核提供商的支持下,我们正在开发一个有望让整个行业受益的稳定、创新型CXL生态系统。”
作为接口IP核领域的领导者,新思科技一直站在为新一代互连(如CXL)开发IP核解决方案的前沿,以帮助设计人员将必要的功能整合进他们的芯片中。利用在PCI Express 5.0方面的专业知识,将完整的DesignWare CXL IP核解决方案推向市场,使设计人员能够满足其芯片的内存一致性和快速数据连接要求,同时降低相关风险。
想了解更多关于Synopsys
PCIe和CXL
的信息,可扫描下面二维码,进入方案详情页面。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第2404期内容,欢迎关注。
『
半导体第一垂直媒体
』
实时 专业 原创 深度
识别二维码
,回复下方关键词,阅读更多
模拟芯片|蓝牙
|
5G|GaN|台积电|英特尔|封装|晶圆
回复
投稿
,看《如何成为“半导体行业观察”的一员 》
回复
搜索
,还能轻松找到其他你感兴趣的文章!
责任编辑:Sophie