DPU发展面临的困境和机遇
来源:内容由半导体行业观察(ID:icbank) 转载自公众号 软硬件融合 ,作者: Chaobowx ,谢谢。
编者按:
即使强如NVIDIA,其DPU已经发布两年左右,目前仍没有用户真正大规模采用。这里面存在的问题到底是什么?有没有破解之道?
这篇文章会对DPU发展过程中存在的问题进行细致分析,抛砖引玉,期待更优的、可大范围落地的创新型产品出现。
更本质的,DPU是在目前算力困境的大背景下产生的,预示着一个新的算力时代的到来。行业需要更多的技术创新,更好的服务 “东数西算”国家大战略和数字经济发展 。
1、DPU发展面临的困境
1.1 芯片研发成本高昂
-
28nm节点开发芯片只需要5130万美元; -
16nm节点则需要1亿美元; -
7nm节点需要2.97亿美元; -
到了5nm节点,费用高达5.42亿美元; -
3nm节点的研发费用,预计将接近10亿美元。
-
终端场景,(大)芯片的销售量至少需要达到数千万级才能有效摊薄一次性的研发成本; -
在数据中心场景,则需要50万甚至100万以上的销售量,才能有效摊薄研发成本。
-
开发DPU芯片,不但需要高性能CPU IP、高性能总线IP,还包括高速PCIe、Ethernet以及DDR/HBM等; -
还需要开发非常多的、并且开发难度也非常高的各类加速引擎,如网络协议处理加速引擎、高性能网络加速引擎、存储加速引擎、各类安全加速引擎等; -
还需要把IaaS等很多上层的软件服务融入到芯片的软硬件方案中,并且需要跟不同用户的不同场景进行对接。
1.2 多领域场景需求
-
多场景,挑战更大。 相比CPU和GPU的单个引擎类型,DPU的处理引擎(或者说涉及的领域/场景)会有很多,如基础设施层的虚拟化、网络、存储、安全等的处理引擎,以及各类开发库、文件系统、数据库、网络访问等的处理引擎。 -
场景的软硬件解耦难度大。 CPU和GPU实现了软硬件解耦,软件开发者和芯片开发者可以并行不悖,各自相对独立的完成工作。而到了DPU的领域加速,要想实现软硬件解耦非常困难;如果硬是要要采用ASIC的完全定制硬件加速,则是场景和硬件完全紧耦合,开发难度更大,灵活性更低,风险更高。
1.3 宏观视角看需求:场景的横向和纵向差异性
-
业务场景的横向差异性, 指的是即使在同一领域,不同用户的业务逻辑仍有差异,甚至同一企业(用户),其内部也会有很多不同的团队,在同一领域的业务逻辑也存在差异。 -
业务场景的纵向差异性, 指的是同一用户/同一团队业务逻辑的长期快速迭代。
-
芯片厂家,根据自身对场景的理解,给出的自认为最优化的方案(场景定制方案)。这样,其实有点越庖代俎,消除了不同用户业务场景的差异性,也限制了用户的业务创新。用户会对芯片厂家形成强依赖关系,这是用户不愿意看到的。 -
一些大用户,自身具备芯片研发实力,根据自身业务需求,定制芯片。但大用户内部也是由许多不同的小团队组成,不同团队业务场景仍然存在差异性,定制芯片也存在技术的、商业逻辑的方方面面的挑战。 -
前两类都是定制的解决方案,这里则是通用的解决方案。 “授人以鱼,不如授人以渔”,通过通用的设计,确保在每个领域,都能够实现一定程度上的软硬件解耦。芯片公司提供“通用”的硬件平台,让用户通过编程的方式实现业务差异化,“让用户掌控一切”。挑战则在于,存在通用的解决方案吗?通用解决方案的软硬件如何解耦?
1.4 针对场景定制设计是一件高难度的事情
-
定制设计,没有冗余,理论上是最极致的性能。但因为定制设计是场景跟硬件设计完全耦合,硬件开发的难度很高,难以实现超大规模的定制设计。 -
理论上来说定制设计的资源效率是最高的,但由于定制设计必然覆盖的场景较小,芯片设计为了覆盖尽可能多的场景,不得不实现功能超集。实际的功能利用率和资源效率反而不是最高。 -
定制设计功能完全确定,难以覆盖复杂计算场景的差异化要求。差异化包含两个方面:横向的不同用户的差异化需求,纵向的单个用户的长期快速迭代。 -
即使同一场景,不同芯片厂家的定制设计引擎架构依然五花八门,毫无生态可言。
1.5 价值和定位不高
-
如果认为DPU就是加速卡: 那么则是完全碎片化的市场,每个领域的加速市场规模大概在5亿RMB左右。因为碎片化,随着其他整合方案越来越流行之后,加速卡未来的市场则有可能会快速萎缩。 -
如果定位SmartNIC: 智能网卡只在一些纯网络加速的场景有用,市场规模大概50亿RMB左右。而计算类的则是相对综合的场景,不但需要网络,还需要存储、虚拟化、安全等场景加速。 -
如果定位基础设施处理器IPU (基本等同于DPU,不同的命名方式):市场规模在500亿左右,这就比较符合市场规模预期。但即便如此,IPU的价值定位仍然要比CPU和GPU低,而研发资源投入和风险却又比CPU和GPU高。这一里一外的差距,即是DPU发展最大的挑战。
1.6 用户的诉求:支撑自身的业务创新
-
很多人认为,互联网公司为了构建自己的护城河,开始构建一套“封闭”体系。 -
我更多的是认为: 随着互联网云和边缘计算的发展,上层的软件业务对底层硬件要求越来越高。而传统的芯片公司,虽然有一些先进的技术,但局限于闭门造车,这些技术并没有为客户带来新的更大的价值,反而在一些方面,约束了客户的价值发挥。
-
更高性能/成本比。 性价比是永恒的话题,都希望最低廉的成本下提供最高的性能价值。 -
差异化。 toB市场,互联网云计算公司需要有足够理想的硬件平台,能够支撑自身业务的差异化,也能够支撑云计算提供差异化的价值给到云的用户(也即用户的用户)。 -
可迭代。 软件的迭代很快,而为了延迟设备的生命周期(也是一种降成本的手段),则需要硬件能够尽可能支持软件服务的更长期迭代。 -
快速业务创新。 用户的业务是核心竞争力,而研发芯片不是。用户需要的是能够自己掌控一切的开发平台,来实现业务创新,来增强自身的核心竞争力。
2、跳脱束缚,寻找更大的机遇
2.1 通过增强功能来覆盖更多场景
-
阶段0:CPU性能足够, 由于其灵活可编程能力很好,是数据中心处理器当仁不让的第一选择。 -
随着CPU性能提升缓慢,有一些性能敏感的任务需要加速。于是有了 各类加速器(卡), 这个时候都局限于某一个特定任务的加速,各个加速方案是完全独立的孤岛。 网络加速 是比较特殊的一个,因为其刚好处在整个服务器的I/O路径上, 价值更大,应用领域也更多。 -
更进一步的,虚拟化的底层基础设施, 如虚拟化管理、网络(包括设备虚拟化和网络服务)、存储(包括设备虚拟化和存储服务)、安全等, 都可以从CPU侧卸载到硬件加速。 -
更进一步的,全栈卸载。 只有整个系统堆栈中的任务足够性能敏感(占用非常多的CPU资源),并且大范围的被部署,则此任务就适合被卸载到硬件加速。其性能/成本比的优化效果也更加立竿见影。
-
传统观点认为,DPU是CPU/GPU的任务卸载加速。 -
按照软硬件融合演进的观点:DPU/IPU则是数据中心算力和服务的核心,而独立CPU/GPU则是DPU的扩展。
-
小系统。 DPU自身是包含CPU、GPU、FPGA、DSA、ASIC等各种处理引擎的一个超大的SOC。本身就能处理所有的任务。在一些业务应用层算力要求不高的情况下,最小计算系统的独立的DPU就能满足计算的要求。 -
中系统。 DPU+CPU。在一些场景,业务应用层有更高的算力要求,或者必须业务和基础设施分离。这样,DPU+CPU的中等计算系统能够满足此类场景需求。 -
大系统。 DPU+CPU+GPU。例如AI训练类的场景,例如一些应用需要加速的场景,并且需要业务和基础设施分离。这样的时候,DPU+CPU+DPU的最大就成为必须的选择。
-
后台的存储服务器和加速器池化服务器采用的是DPU小系统; -
通用计算服务器采用的是DPU+CPU的中系统; -
AI服务器采用的是DPU+CPU+GPU的大系统。
2.2 通过通用可编程能力来提升功能覆盖
2.3 超异构计算,更充分的利用更加庞大的晶体管资源
-
DPU成为 一个灵活的SOC,既可以作为CPU/GPU的助手,也可以独立工作。 就像2.1节提到的DPU小系统,但这个SOC系统规模较小,价值仍有待提高。 -
通过超异构,进一步提升DPU的系统规模,让DPU能够覆盖更多复杂计算场景。 -
自成一体,成就更大的价值。
2.4 多领域多场景的挑战,唯有开源开放
可支持
的领域和场景包括:
-
网络领域,包括VPC、EIP、LB、网关等场景; -
存储领域,包括本地存储、分布式块存储、对象存储、冷存储等场景; -
安全领域,包括网络安全、数据加密、零信任、可信计算等场景; -
虚拟化领域,包括计算机虚拟化管理、容器虚拟化管理、监控、设备模拟、运行时和热迁移等具体场景; -
甚至,可以包括应用层的各类加速领域和场景。
-
站在芯片厂家的视角, 期望的是,一颗芯片,能够被众多厂家采用。也即是自己的硬件平台,很多用户都采用。甚至,私心一点,希望用户捆绑到自己私有的架构平台上,让用户形成依赖。 -
站在用户的视角, 一方面是商业方面(不形成特定厂家依赖)的考虑,一方面是技术方面(即上面提到的跨硬件平台迁移,需要硬件一致性)的考虑。用户需要的是一致性的硬件平台。即所有芯片供应商提供给自己的是一个一致性的平台。甚至可能的话,是自己软件定义的硬件平台。
3、一些结论
-
DPU是超异构计算时代来临的一个起始; -
未来所有(大)芯片都会是超异构芯片; -
超异构和SOC是两个完全不同的概念; -
超异构大芯片需要足够通用,而不是专用; -
超异构需要开源开放的生态; -
要想驾驭超异构的超大系统规模,就需要软硬件融合。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3022内容,欢迎关注。
推荐阅读
半导体行业观察
『 半导体第一垂直媒体 』
实时 专业 原创 深度
识别二维码 ,回复下方关键词,阅读更多
晶圆|集成电路|设备 |汽车芯片|存储|台积电|AI|封装
回复
投稿
,看《如何成为“半导体行业观察”的一员 》
回复 搜索 ,还能轻松找到其他你感兴趣的文章!