Arm 2023全面计算解决方案深度解读

2023-07-03 16:58:43 来源: 互联网
经过过去几十年的发展,基于Arm架构的芯片已经进入到千行百业,而在设备创新以惊人的速度加速发展的同时,基于 Arm 架构、为 Arm 架构应用进行开发的开发者也越来越多。
 
毫不夸张地说,我们所有人的桌面或云端上都很有可能具有一款基于 Arm 架构的产品。基于 Arm 架构的芯片也正在帮助全球数百万开发者释放创造潜力,助力他们为我们提供所熟悉和喜爱的沉浸式体验。
 
因此,为了满足定义未来计算的复杂需求,并确保数百万开发者能够轻松地在 Arm 架构的平台上无缝开发,Arm也在不断突破公司计算平台的能力极限。“Arm 2023 全面计算解决方案”就是该公司带来的最新答案。
 
性能最优异的移动计算平台
 
自去年推出 2022 全面计算解决方案以来,Arm已经为一系列的工作负载提供了更高的计算性能和能效,并在多个设备中实现了全面计算战略的所有要素。基于 Arm 2022 全面计算解决方案的高通第二代骁龙8移动平台更是实现了高阶连接计算的新水平,并为包括三星、小米、一加、vivo、华硕和红魔等众多品牌的创新智能手机提供动力。“新推出的 Arm 2023 全面计算解决方案,这是我们为智能手机推出性能最优异的移动计算平台。”Arm 产品营销副总裁 Ian Smythe说。
 
在谈到为何要以这种方式服务客户时,Arm 终端事业部产品管理高级总监 Kinjal Dave说道:“我们开始采取这样一条路,是因为我们当时看到市场对性能以及效率的要求达到历史新高,无论是电视供应设备,还是大型数据中心。”通过这样的方式,Arm 希望能够从其角度来定义什么是解决方案,在其中还包括了工具、软件以及旗下各种硬件产品,再往下还包括了像 Arm 架构以及再底层的物理 IP 以及POP IP。
 
在全新的2023全面计算解决方案上,除了在底层 IP 上有了全新的更新,在工具上也提供了新的产品。值得一提的是,在其软件中,则包括了性能、安全以及开发者的可访问性这三大支柱。
 
据介绍,Arm 2023 全面计算解决方案在设计时充分考虑了智能手机的需求,涵盖了首屈一指的全新旗舰级 Arm Immortalis GPU,带来最佳的视觉体验,它提供了全新的 Armv9 CPU 集群,延续了Arm在智能 AI 的领先性能地位,还带来了新的提升和优化,使 Arm 开发者能够更容易地访问软件。通过将以上元素全部结合在全新的全面计算解决方案中,Arm为整个系统的关键工作负载带来了显著提升。
 

 
如上图所示,在这个全新的解决方案中,包括了Armv9 Cortex 计算集群。通过 Armv9 架构的 CPU,Arm为开发者提供了 MTE 功能,帮助消除占所有软件漏洞中 70% 的内存安全漏洞,为用户提供功能安全及信息安全的数字体验。



具体到CPU方面,Arm首先带来了第四代 Cortex-X 内核Cortex-X4,这是他们打造过的、性能最快速的CPU。得益于其高能效的微架构设计,与 Cortex-X3 相比,Cortex-X4 的性能提高了15%,功耗则降低多达 40%。



除了Cortex-X4以外,Arm还带来了全新的大核处理器 Cortex-A720 和全新小核 Cortex-A520。其中,Cortex-A720 是业界主流的 CPU IP,可提高持续性能,是新 CPU 集群的核心主力,而Cortex-A520 则是Arm最出众的高效性能核心。值得一提的是,在这些新CPU推出以后,Arm正式完成了迁移到 64 位系统的任务,这为他们向终端客户提供更好的体验提供了可能。



为了完善全新的 CPU 集群,Arm还推出了专门为了满足高要求的多线程用例而设计的全新DSU-120和首屈一指的全新旗舰级 Arm Immortalis GPU。基于上述软硬件配置,这让持续开拓高端市场提供了可靠的倚仗。
 
第五代 GPU架构“芯”品惊艳亮相
 
Arm 终端事业部产品管理高级总监 Anand Patel表示,在去年,公司推出了 Immortalis 作为旗舰级 GPU。作为一系列基于Arm第四代 Valhall GPU 构架设计的产品,这些GPU到目前为止,其可扩展性仍然是无与伦比的,赋能设备最新的图形功能。截至目前,基于Arm GPU的芯片出货量已经超过 90 亿,并被广泛应用到从高端的智能手机到笔记本电脑、再到汽车、电视、VR和机顶盒等领域。



进入今年,Arm则带来了公司基于第五代GPU架构的新品Immortalis-G720。
 
据Arm介绍,其第五代 GPU 架构不但能够提供最佳的性能,同时它还与外部内存、CPU 系统级缓存在执行中也能实现最佳性能。这是通过更为先进的渲染管线来实现的,这些管线能够提高功效,并且带来更具有沉浸感的游戏以及实时 3D 的应用程序,而且能让这些程序有更长的运行时间,也是为第五代 GPU 奠定了基础。
 

 
今年作为第五代GPU架构的第一年,Arm会非常专注于处理效率,并认为该系列GPU将会推动下一代视觉计算的交付。在应用方面,除了旗舰智能手机之外,Arm的这代GPU还需要支撑包括游戏机、笔记本、电话和游戏手机在内的多个平台。如下图所示,基于第五代架构,全新的Immortalis-G720 则带来全面的提升。
 

 
在新功能方面,延迟顶点着色(简称 DVS)的引入,让Immortalis-G720 增色不少。
 
据介绍,DVS是全新的渲染管线,它彻底解决了集合数据流,对很多现在常见的内容完善都是非常有增益,有助于在用到最复杂的场景时保持帧率的一致性,从而能非常好地验证下一代高几何内容的未来。从下图我们也可以看到,通过运行几款流行的游戏进行测试,我们可以借助这项息技术带来内存带宽的节省,进而可以减少 DRAM 的功率并提高性能。
 

 
而通过将延迟顶点着色 VRS 的性能增加到 4X2 或者 4X4 着色,Arm能够让这个新GPU 在更粗的粒度之下进行片段着色。如一个线程每次可以在 4X4 象素的补丁上进行着色,在整个 4X4 的着色率情况下就可以将整个速度提高16 倍。
 
 

Anand Patel解析说,之所以DVS能达成上面的成就,这首先得益于其通过将顶点和片着色结合起来,减少了外部带宽的消耗的设计;同时,每一个 Tiler 通过对每一个三角形进行决定是否推迟 DVS,以防止过度重新着色;最后,Arm增加了每个 Tiler 的大小,这就直接减少了必要的重新着色量,意味着更多的顶点着色可以被推迟。
 
“节省的带宽意味着电力的节省,整个电力预算系统就可以进行重新分配,把它用在最为有效的地方。”Anand Patel强调。
 

 
同时,Arm在Immortalis-G720上也完善了对动态缓冲区的支持,提高了 GPU 和 CPU 的性能,并增加了带有硬件边界检查的加载和存储指令,减少了使用Vulkan动态缓冲区的应用程序的CPU负载。据Arm介绍,这是一个允许应用程序进行更大的内存分配并将其分割成子缓冲区以更动态地使用的功能,能协助实现动态功能调用。
 
 
 
如上图所示,在Immortalis-G720硬件的各个固定功能部分,Arm也进行了相应的改进。此外,在全新GPU的物理设计方面,Arm同样做了不少的改进。当中包括但不限于调整时钟、电压和功率域的边界,使各域的操作点脱钩,为 GPU 的功率使用提供了更大的灵活性。Arm还能降低着色器内核的速度,并在内存系统中花费更多的功率,从而应对内存系统的限制。集成商面临的另一个挑战是电力输送,特别是对于大型GPU,因此Arm在产品大型配置中增加了对两个电源轨的支持,进一步优化其设计。
 

 
为了进一步便利开发者,Arm持续在Arm Mobile Studio 中提供开发 GPU 的工具支持,帮助开发者针对 Arm GPU 进行优化,从而实现开箱即用的出色性能。



值得一提的是,Arm正在为新的 Mobile Studio 开发一个新的工具,以开发一个名为 Frame Advisor的新功能。据介绍,这是基于一个帧的游戏分析器,支持 Vulkan 和OpenGLES,使用一个层驱动来捕获每一帧中所有的 API 调用。在Arm看来,通过 Frame Advisor,能向开发者展示遵循了最佳实践的工作。


 
“我相信它将会成为 Mobile Studio 非常好的补充工具。同时在 GPU 上我们也进一步持续地开发功能来支持机器学习。”Anand Patel说。此外,一直被行业广泛讨论的光追技术,也是Arm在新GPU上的钻研重点之一。
 
除了Immortalis-G720以外,Arm同时还带来了Mali-G720和Mali-G620。其更多细节如下图所示。
 

 
CPU全面进入64位时代
 
在GPU以后,Arm又介绍了新的CPU组合。在具体介绍Cortex-X4、Cortex-A720和Cortex-A520之前,我们首先强调,这三款 IP 都是基于全新的 Armv9.2 的架构设计的,也都是纯 64 位 IP 产品,这意味着Arm终于完成了向 64 位的迁移。
 
Arm 终端事业部产品管理总监 Saurabh Pradhan更是直言:“Armv9 架构支撑了从安全到机器学习一系列的功能,这也是安卓全线的高端机都使用这个架构芯片的原因。具体而言,该架构中两个重要的技术——MTE和指针验证。”
 

 
具体到这三款IP,我们首先看Cortex-X4。据介绍,Arm在该系列产品上连续四年实现了双位数的性能提升。与上一代安卓旗舰产品相比,Cortex-X4的性能提升了15%;同时,因为Cortex-X4是基于最新的 Armv9.2 架构,所以它还具备架构的领先性;此外,该IP还具备更高的可伸缩性,最高可以支持每个核 2M 的2级缓存,所以能支撑更大的指令和数据量。其所以对于性能关键型的线程,也可以把它隔离保护起来,因此不会有额外的对内存资源的竞争。
 

 
Arm还透露,该IP也是在面积效率方面最为高效的Cortex系列内核产品。能实现这种极致性能,得益于他们在产品设计时的几点思考:
 
首先就体现在前端取指令方面上的调整。据介绍,Arm以前是一个周期取一个指令,但现在可以一个周期实现十个指令的提取,这对于应用来说是非常重要的(如突然出现了峰值,这时取指令的数量增加,能够进一步提高性能)。受惠于这个一周期取十个指令的设计,让Cortex-X4在出现一些分支错误预测的时候,能够快速地再去弥补,把新的指令取过来。同时,该IP还使用了先进的分支预测性,可以保证有条件的分支准确率。
 
来到设计中的执行部分,Arm方面表示,Cortex-X4的设计全面提升了其带宽,实现了每周期 10MOCS的速率。同时对于各种各样的工作负载而言,Arm进一步实现了它的管线结构,进一步拓展了它的管线带宽。
 
“作为一种无序核,与 Cortex-X3 相比,Cortex-X4 全面实现了提升的容量,从 320X2 到 384X2。内存的数据冲洗是不常发生的,但当发生之后我们会加速加载存储冲洗处理,从而尽量减少对性能的影响。”Saurabh Pradhan强调。
 

 
其次,来到后端方面,Arm在这个IP上也做了一些设计以实现带宽的提升。例如,与上一代相比,Cortex-X4的管线就从三个提升到四个。而在使用了最新的数据预读器(即全新的 1 级时间数据预读器),且采取了全新架构后,更是降低了 1 级数据库的冲突。为了不局限于工作负载运行的数量,Arm更是在其上实现了更大的 1 级数据TLB(从 48 增大到 96)。同时还支持更大的 2 级缓存,这意味着每一个内核能存储更多的数据从而提高性能。
 
更大的2级缓存还有一个好处,那就是无需向外输出或者连接外部的存储,这就减少了内存消耗,从而带来了两个好处——分别是减少 3D 缓存和 DRAM 流量,以进一步提升能效。
 

 
在介绍完了Cortex-X4之后,Arm还深入解读了公司的大核——Cortex-A720。据Arm所说,这个系列的设计原则是提供同类最佳的可持续性能。每一年 Cortex-A700 系列的最新品也都是在一个既定散热的极限之下实现的性能提升。换而言之,Cortex-A700 系列的产品它实际上是功效性能最优化平衡下,全面系统性的性能提升。因此对于 Cortex-A700 系列产品,Arm不光用基准测试工具来检测它的性能,更重要的是还要结合一些现实场景中的用例,来确保其技术优势体现。
 

 
在与Cortex-A715 相比较,Arm在面积相同的情况下,将Cortex-A720 性能提升了10%。能达到这样的成就,完全就是得益于一些具体的架构优化,从而实现效率的提升。Arm也表示, Cortex-A720 的大部分效率提升是得益于前端的设计。
 

 
首先,从分支错误预测的恢复来看,Cortex-A715 需要 12 个周期,但是Cortex-A720 缩短到 11 个。同时,通过对效率结构的优化,Arm提升了Cortex-A720 两个跳转分支预测的效率。此外,Arm在沿袭Cortex-A715管道设计的同时,加速了Cortex-A720从矢量到整数数据传输。在数据转发方面,Arm也更好地实现了排队队列的效应。
 

 
Arm在Cortex-A720 上还获得了点击延迟更低的2级缓存。这对于那些内存密集型的工作负载是非常有益的,同时也更加能够增益那些像独立于数据非常难以预测的一些分支,从而降低分支错误预测的计算;在内存归零设计方面,带宽在 2 级缓存方面也有了一倍的增加;具体到数据预读取方面,Arm也进一步提高了它的准确率和覆盖,同时还使用了全新的 2 级空间预读取引擎,并针对 Cortex-A720 的定位做了定制化的应用。
 

 
小核Cortex-A520 同样也是公司基于 Armv9.2 架构设计的,在所有的同类IP中,Cortex-A520实现了最低的功耗面积比。
 
Arm表示,Cortex-A500 系列产品是为那些低密度背景的工作负载提供最优的能效而设计的,在实际应用中公司希望能借助这个设计延长移动设备的电池寿命。具体到Cortex-A520,则是基于 Cortex-A510 所引入的汇聚核的微架构设计,让多个核在一个片上共享 2 级缓存和 UCC。它还使用了 QARMA3 的 PAC 算法,进一步降低了 1% 功耗。
 

 
为了进一步提升效率,与 Cortex-A510 相比较,Cortex-A520 在内存系统方面进行了再构造。Arm同时还将其ALU 管线从上一代的三个精简为两个,以在发行逻辑方面减少数据转发的流量。
 


“一般而言,管线的减少会带来性能的降低,但Arm通过在其他结构方面进行了调整,弥补了性能的减少,并最终实现了Cortex-A520相较Cortex-A510的性能和效率的提升。值得一提的是,虽然 Cortex-A520的ALU 管线从三降低到二,但每个管线每个周期可以取三个指令,这个设计又带来了提升。”Saurabh Pradhan说。“当前我们分享的Cortex-A520性能效率提升是完全来自于微架构的优化”,Saurabh Pradhan强调。
 
DSU-120的“如约而至”
 
除了CPU和GPU以外,全新的DSU-120也是Arm 2023全面计算解决方案中引入的重要更新。据Arm介绍,Arm在几年前就设计了DSU-110。在其设计之初,公司的目标是希望能实现更高的可伸缩性,从而满足未来的计算需求。DSU-120 则是基于原有的 DSU-110,针对效率和伸缩性进行了进一步的优化。
 

 
Arm表示。与DSU-110 相比较,DSU-120能够实现动态能耗 7% 的降低。这是针对 3 级动态电源的节约。如果针对缓存丢失的问题,则可以实现18%的动态能效降低,在静态电耗方面则也有进一步的节约。
 
来到微架构方面,DSU-120也进一步提升了它的可伸缩性,让一个 DSU 能够最多连接 14 个超大、大、小核。同时,该产品还是一个基于双向的环状拓扑设计,在带宽和时延方面实现了优化。针对3 级缓存还有探听过滤器,DSU-120还实现了每一片逻辑的分离,使其可以配置。对于不同的带宽需求,DSU-120也可以支持 1-8 个片等级的配置。
 

 
此外,该IP还拥有同类最佳的电源管理,引入了先进的断电模式,以实现比如漏电保护模式以及自动电源管理的模式。据介绍,DSU-120的一个电源模式叫做 RAM 保持的模式,意思就是在保留所有内容的时候,所有的 RAM 都被调至低电状态;其另一个电源模式叫 Slice 逻辑断电模式,据介绍,Slice 的逻辑是断电的状态,但是其他的 DSU 和 RAM 仍然是通电的状态,因此这些内容可能存在于其他的 DSU 上。
 

 
“因此对于 DSU-120 来说,它支持 MPAM 架构,即内存系统、资源分区以及监控的架构,也就能实现对分区资源的控制。这意味着每一个核或者 ACP 在访问一个资源的时候都会被给指定给一个 MPAM 的 ID”, Saurabh Pradhan说。
 
凭借这些这些领先的软硬件产品,Arm 2023 全面计算解决方案正在计算世界中创造更多的可能。

责任编辑:sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论