Arm终端CSS助力移动设备迎接AI时代!

2024-06-27 14:25:20 来源: 杜芹
据data.ai数据显示,2024年,人们每天使用智能手机的时间加总高达140亿小时。这是什么概念呢,也就是大约每人每天要使用智能手机五小时,这一时长还在不断增长(同比增长 6%)。移动设备日益成为人们日常生活中不可或缺的一部分,与之相伴随的是消费者对移动设备的极致性能需求。当下,随着AI技术的加速发展,端侧AI正在重新定义各种智能设备的智能性。
 
尽管摩尔定律正在减速,但在Arm看来,高端移动平台的创新压力却并未减轻。Arm终端事业部智能手机市场高级总监Steve Raphael在近日的Arm技术日中指出,AI所带来的计算需求正在呈指数级增长。系统级芯片 (SoC) 设计人员、OEM厂商和软件开发者需要更好的灵活性和更多的选择,来确保各类消费市场中的设备都能够经受未来考验。而Arm将在这一过程中继续扮演着关键的角色。Raphael提到,Arm架构的普适性和开发者友好的指令集,是推动移动端下一波计算性能需求的基石。随着终端AI工作负载的增加,特别需要关注能效问题,而这正是 Arm 所擅长的领域。
 
 
     Arm 终端事业部智能手机市场高级总监 Steve Raphael
 
面对新一波移动端计算浪潮,Arm终端计算子系统(Arm CSS for Client)将是Arm赢下AI时代的重要“砝码”。
 
Arm终端计算子系统何以强势?
 
作为一家IP厂商,Arm从2021年的打法就变得不一样起来。这一年,Arm为终端设备推出了全面计算解决方案 (TCS) ,将各种CPU、GPU IP产品整合在一起,不断突破计算的极限。事实证明Arm的这一做法取得了很大的成功:从第一代Armv9 CPU 集群、性能强大的 Arm Mali GPU,到2022年发布第二代Armv9 CPU集群,新的旗舰级GPU系列 Arm Immortalis,再到Armv9.2 CPU集群和基于第五代GPU架构的新GPU系列,TCS解决方案已连续三代实现两位数的性能和效率提升
 
在Specint和Geekbench等基准测试中,TCS计算性能每年提高超过15%。在各种 GPU 基准测试和实际游戏内容中,图形性能提升超过 20%。更重要的是,Arm持续实现了超过 15% 的同比效率提升。
 
生成式AI下沉到端侧已成为大势所趋。要在手机上打造新一波具有突破性的端侧生成式 AI 体验,全新的计算平台能力必不可少。这将引发移动平台各个层次的变革:
 
1)更智能的应用:AI 应用将努力设法在模型大小和精度之间找到恰当的平衡,以确保在移动设备上实现理想性能。
 
2)弹性的框架:部署弹性的软件框架以因应不断变化的运营商、网络和功能演进。
 
3)突破触摸屏的用户界面:用户界面将不再局限于触摸屏,而是会包括语音和视觉输入在内的多模态交互方式。
 
4)计算系统:计算系统需要显著提高处理吞吐量并大幅降低延迟,以处理复杂的生成式 AI 工作负载。
 
5)DRAM:内存变得愈发重要,高带宽、高密度且能耗更低的 DRAM 对于高效的移动端 AI 运行至关重要。
 
6)内存系统:想要在功率有限的移动设备上运行具有数十亿参数的强大生成式 AI 模型,必须优化内存拓扑。
 
根据这些市场驱动因素,Arm的终端CSS在这一代产品中优先考虑了四个关键领域:一、突破性能边界以处理要求苛刻的安卓实际工作负载;二、针对生成式 AI 以及更广泛的 AI/ML 和计算机视觉工作负载提高性能;三、持续专注于实现两位数的系统能效提升;四、扩展平台以获得更高的性能点,满足新一代AI PC设备的需求(包括笔记本电脑和平板电脑)。
 
Arm终端CSS专为高端终端设备细分市场设计,在性能、效率和可扩展性方面带来突破性变化。
 
Arm终端CSS包括第二代Armv9.2 CPU集群,引入了性能最强的Arm Cortex-X925 CPU和效率最高的Cortex-A系列核心Cortex-A725,以及更新后的Cortex-A520 CPU,使得在三纳米工艺上达到了新的性能和效率水平。在GPU方面,基于第五代 Arm GPU 架构的全新 GPU 系列包括专为旗舰移动设备设计的 Arm Immortalis-G925,以及面向大众行业市场移动设备的 Arm Mali-G725 和 Mali-G625。
 
终端CSS是Arm最快的安卓平台。这可以用几组数据来说明:在游戏峰值图形性能方面,与TCS23相比,终端CSS为包括光线追踪在内的各种游戏内容平均实现了30%的性能提升。相比去年基于FPGA的安卓旗舰配置实现,2+4+2 CPU集群将应用启动提速约33%。通过集群的升级,囊括额外的 Cortex-X核心,并将L3缓存增加到16MB,性能提升了约10%。
 
对于AI大语言模型 (LLM),Arm终端 CSS平台上词元的首次响应时间 (Time-to-first-token, TTFT) 显著提升,3.8B参数Phi-3模型TTFT提升46%;8B参数Llama 3模型TTFT提升42%。
 
此外,终端CSS的AI推理速度大幅提升:Immortalis-G925 GPU 上 AI 推理速度平均提高 36%(在17个主流AI网络中,使用fp16数据类型);Cortex-X925 CPU 上 AI 推理速度提高 59%;利用一颗额外的 Cortex-X925 CPU,AI 推理速度提高 170%(在17个主流AI网络中,使用int8和fp16数据类型)。
 
在五款热门手游中,Arm测得,与上一代TCS23相比,终端 CSS 在相同功率的条件下,其 FPS 性能平均提升 37%;而在相同的 120fps 性能条件下,功耗显著降低 30%。这五款游戏分别是《使命召唤》、《Roblox》、《暗黑破坏神:不朽》、《明日之后》和《堡垒之夜》。
 
移动端芯片正在走向三纳米。但过渡到新工艺节点前路不无挑战。要充分释放先进三纳米工艺节点的潜力,需要在计算平台的不同层次上进行创新。“对于我们的芯片合作伙伴而言,要发挥三纳米工艺上的 PPA 优势等,需要解决新工艺节点和新 IP 带来的双重复杂性。”Arm 终端事业部产品管理总监 Steve Hopper表示。Arm 终端 CSS 引入了针对三纳米优化的生产就绪的 CPU 和 GPU 物理实现,在多家代工厂可用,为其合作伙伴提供了更大的灵活性。利用内部的协同设计与CSS RTL,为3纳米芯片提供一流的PPA。
 
 
     Arm 终端事业部产品管理总监 Steve Hopper
 
迄今最强的新一代Armv9 CPU集群
 
性能强劲的Armv9 CPU集群为Arm赢下AI时代增添了不少筹码。在技术日上,Arm终端事业部高级产品经理 Manish Pandey介绍了两个全新的IP,即旗舰CPU Arm Cortex-X系列Cortex-X925和高效CPU Arm Cortex-A725,以及两个经过更新的IP,包括针对三纳米工艺的更新Arm Cortex-A500系列CPU和更新的动态共享单元(DSU)。
 
 
     Arm终端事业部高级产品经理 Manish Pandey
 
自2020年推出以来,Arm Cortex-X系列一直致力于提高单线程性能。虽然这在过去的四代产品中已经实现,现在Arm更为激进,不仅在IPC、频率、编译器、操作系统和封装等多个方面进行了革新设计,而且通过协同设计IP和物理解决方案,实现了量产就绪的领先性能、功耗和面积(PPA)表现。
 
Cortex-X925是Arm的最新成果,也是迄今速度最快、性能最强的CPU之一。今年,Arm在Cortex-X项目上实现了有史以来最大幅度的IPC同比提升,通过结合前沿的微架构功能和可配置性,以及先进的物理解决方案,来提升性能表现。Cortex-X925的单线程性能提升了36%,AI性能提高了46%,展示了卓越的IPC性能和整体表现。
 
未来,Arm将以Cortex-X925为基础,在先进的工艺节点上实现3.8GHz,这将使得下一代设备的 Geekbench 得分提高30%以上。此外,还要对缓存大小、先进的功耗与热管理技术,以及更新运行时选择上的进一步投入,共同推动设备性能的提升。
 
Arm Cortex-A725则在性能和效率之间达到了最佳平衡。与去年的产品相比,Cortex-A725能效提高了25%。Cortex-A725内部还优化了预取器和增加了更大的 L2 缓存,使得 L3 的流量减少了 20%。LLM对带宽需求非常高,Arm减少了对 L3 和 DDR 内存的压力,为 LLM 模型提供了更多的空间来提升性能。
 
在效率领域另一大出色的产品是Cortex-A520。针对最新的三纳米工艺节点,Arm对Cortex-A520进行了更新和优化,减少了15%的能耗。此外,Arm还更新了DSU,以应对新的高级用例,引入了新的功耗模式,降低了典型工作负载的功耗。
 
DSU是一种特殊的IP,它的设计考虑了多种性能指标,如缓存大小、带宽、延迟、漏电和动态功耗。今年推出的 DSU-120 针对不同的市场需求进行了优化,特别关注于性能、功耗和面积(PPA)的改进。DSU 还引入了新的节能模式,如中高切片断电模式和Quick Nap模式,以帮助降低漏电,同时保持性能不受影响。DSU 的灵活性使得在满足不同带宽要求或降低功耗的情况下,可以调整其规模,从而更好地适应不同的市场和应用需求。
 
总结来说,新一代Armv9.2 CPU集群是Arm迄今为止面向AI和UI的性能最强大的CPU集群,他们在性能、效率和多用例支持方面都取得了显著进展。这些创新不仅推动了处理器技术的边界,还提升了用户体验的整体水平。Arm在为未来的计算需求做好准备,致力于持续推动技术发展,以满足不断增长的计算和AI应用需求。
 
性能最强、效率最高的 GPU:Immortalis-G925
 
Immortalis-G925是Arm目前性能最强、效率最高的GPU,也是Arm终端计算子系统(CSS)的一部分。与2023年参考平台上的Immortalis-G720相比,Immortalis-G925在各种图形应用中提升了37%的性能,在 AI/ML 网络方面提升了 36% 的性能。在提供与 2023 年参考平台相当的游戏性能时,Immortalis-G925能节省高达 30% 的功耗,并且在复杂对象的光线追踪中性能提升了52%。
 
在游戏性能方面,与去年的解决方案相比,Immortalis-G925的主流手游的性能平均提升了 46%。例如,米哈游的《原神》性能提高了 49%,而腾讯光子工作室群和 KRAFTON 公司合作开发的《绝地求生手游》提升了 36%,《Roblox》更是大幅提升了 46%。其他热门手游的性能提升范围从 29% 到 72% 不等。这种代际性能飞跃对开发者和玩家来说都具有重要意义。
 
接下来,让我们看看 Immortalis-G925 在 AI 方面的表现。在 Arm 终端 CSS 中,AI 具有异构性。虽然许多 AI 工作负载适合在高度可编程的 CPU 上运行,但对于图像分割或物体检测等任务,GPU 的性能表现更为优越。“我们持续改进 GPU 对 AI/ML 工作负载的支持,并专注于关键领域。例如,在图像处理中,我们与去年的全面计算解决方案相比,将性能提升了 41%。在超分辨率图像处理任务中,我们实现了近 30% 的性能提升;在自然语言处理和语音转文本方面,性能提升达到了 50%。”安谋科技 (Arm China) 市场总监王刚表示。
 
 
       安谋科技 (Arm China) 市场总监王刚
 
除了性能上的提升,Arm还与开发者紧密合作,充分发挥其产品的价值,以确保最终用户享受卓越的体验。例如,Arm 与生态系统合作伙伴 Unity 正在展开密切合作,Unity 推出了支持 FP32 的 ML 框架 Sentis。
 
Immortalis-G925出色的游戏和 AI 性能将带领移动行业迈向崭新时代,为手持设备打造媲美游戏主机的图形效果以及更为智能的应用体验。
 
Arm Kleidi软件,加速开发最后一里程
 
Arm Kleidi 是一套由 Arm 开发的开源软件库,旨在帮助开发人员在 Arm CPU 上加速机器学习 (ML) 和计算机视觉 (CV) 应用的开发。它提供了各种高性能内核和优化,可帮助开发人员充分利用 Arm 架构的最新功能和优势。
 
安谋科技 (Arm China) 开发者生态高级经理李陈鲁在会上进一步介绍到,Arm Kleidi是一个专为 Arm CPU 高度优化的计算内核代码软件库,可直接整合进各种库或框架,帮助开发者在 Arm 平台上轻松获得出色性能。目前的版本包括KleidiAI和KleidiCV 两部分,它们都针对Arm CPU架构和微架构进行了高度优化,支持未来的SVE2和SME2指令集,并兼容传统的Neon技术,从而在广泛的设备上实现最佳性能。因此,无需担心只有最新设备才能享受 Kleidi 带来的性能提升。
 
KleidiAI的设计遵循了简约至上的原则,Arm仅用一天时间就完成了代码集成与测试。据李陈鲁的介绍,KleidiAI的功能重点是覆盖那些开发中最耗时的机器学习负载。在Llama.cpp测试中采用KleidiAI后,词元的首次响应时间提升到了之前的三倍。
 
 
       安谋科技 (Arm China) 开发者生态高级经理李陈鲁
 
Arm还将KleidiAI整合进了最新的多后端大模型API MediaPipe中,实现了20亿参数的 Gemma 模型运行速度提升了 25%。此外,Arm还与著名的游戏引擎 Unity 合作,得益于 KleidiAI,Unity中基于量化网络的内核运行速度达到了原先的 FP32 实现的近五倍。
 
有了KleidiAI,为何还会再推出一个KleidiCV。李陈鲁指出,现今,计算机视觉应用数量庞大,CPU 瓶颈是一个显著挑战。在这个世界上,纯粹的机器学习影像管线并不存在,即使 ML 任务由 NPU 运算完成,大量数据仍需在不同阶段封装和转换。因此,确保这些过程不成为整体性能的瓶颈至关重要。这也是为什么尽管 KleidiAI 已经存在,Arm仍引入 KleidiCV 的原因。而显然,OpenCV 是计算机视觉算法的综合体,因此引入 KleidiCV 显著提升了性能。
 
结语
 
最近一年来,Windows on Arm 生态系统取得了显著进展。越来越多的应用程序成为了 Arm 原生应用,尤其是一些重要的应用程序,如 Chrome 浏览器、Office、Dropbox、Zoom 和 Adobe 等,它们都已经加入到了 Arm 应用的行列。此外,许多面向创作者的开源工具,包括 Audacity、Blender 和 OBS Studio(用于流媒体),也已经成功适配到了 Windows on Arm 平台上,显示出大量开源库和开发者工具在进行适配工作。
 
可以说,从高端手机,到大屏幕计算,到消费电子设备和可穿戴设备等细分领域,Arm正在推动对所有价位的各类终端设备进行开发创新,Arm终端CSS是适合Arm合作伙伴使用的可扩展性最高的平台。
 
责任编辑:sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论