来源:内容由
半导体行业观察(ID:icb
ank)转载自公众号企业存储技术,作者:
Winnie shao,
谢谢。
最近,大热DPU赛道上的四家头部创业新贵分享了他们的行业洞察和产品计划。
在此,我们来总结一下,他们是如何看待这个潜力无限的市场的。
大禹智芯,作为第一个分享者,开头开得很好。大禹智芯对
DPU
的定位是云计算的第三引擎,对自己的产品目标也描述得非常清晰:面向广泛市场提供好用易用的产品。
第一个分享者担负着科普
DPU
的历史的责任。同样讲历史,大禹是从业界真实产品与真实应用的角度,分析并推导了
DPU
背后的产品逻辑,这与大禹的创始团队都是来自公有云大厂因此他们是最懂业务的团队这一背景非常相符。
大禹智芯的
CEO
李爽,曾任美团云总经理,他曾经分享过团队的产品策略,“从上层场景需求出发推动芯片等底层硬件的创新”,这也是
DPU
产品出现的逻辑,
DPU
是从公有云业务发展而来,是由业务场景反推出的一个产品,而不是由半导体公司主动定义然后去做客户推广的产品。
这个产品逻辑的也解释了大禹智芯的第一代产品是一个多核的
ARM
通用处理器
SOC
构成,到了第二代才加上
FPGA
以加速更高带宽的
IO
接口。通用
ARM
处理器的
SOC
架构意味着,这是一个以解决业务卸载为切入点的产品(而不是业务加速,降成本的产品)。这跟
DPU
最成功案例的
AWS
的
Nitro
是一样的发展经历。别以为
DPU
是一个硬件产品,这种高度可编程的芯片更多的工作在软件。刚刚被
AMD
以
19
亿美金收购的
Pensando
,
2/3
的员工是软件工程师。
此次分享大禹智芯没有透露他们的第三代产品信息,只说是去年年底就已经开始研发,相信今年
6
月加入的
HPCA
名人堂成员蒋晓维蒋博士会交一份不错的答卷出来。
作为第二个分享者, 中科驭数感谢了大禹智芯的对
DPU
的全面介绍,就直奔
NVMeOF
的存储方案。也不知道是不是默契,四场技术分享,大禹的重点是业务全景图,中科驭数局部集中在存储,云豹把管控部分讲得比较详细, 最后的益思芯则是围绕
P4
重点讲网络。没有出现,你讲
OpenStack
的管控方案,我就拿
K8s
来对比,你介绍
25G
卡,我就拿
100G
卡出来的有火药味的场面。
中科驭数花了蛮长的时间,介绍了
NVMeOF
的协议,演进和实现难点,如果对
NVMeOF
有兴趣,非常值得一听。
当然,我更感兴趣的是中科驭数展示的最新的
KPU 2
代的架构,在那篇著名的
DPU
白皮书中有提到,这次算是一次更详细的解读。
我对中科驭数的这个“软件定义”加速器技术,不算太理解,请教了一下之后的理解是:“软”的意思是指
KPU 2
代采用了大量的专用处理器,数据的处理工作是由专用处理核上的软件代码来完成,这里的“软”体现的是可编程能力。而“硬核”加速器的“软件定义”体现在硬核的调度顺序可编程上。无所谓是对专用处理器编程,还是对硬核调度编程,都是可编程,可软件定义的,虽然听上去都是有点难度的。
KPU
中的片上网络
FlashNOC
, 盲猜是类似
AXI cross bar
结构。可用
P4
编程的
128
核网络引擎
PPE
,加上积累来的
2
年多的把
TCP/IP
栈全硬化的网络加速引擎
NOE
,兼顾了网络数据面的性能和灵活性两方面的要求。数据库
/
大数据加速引擎
DOE
,是最为独特的加速引擎,这是一般
DPU
所没有的,我只在
IBM
高端
CPU
见过。
总之,在加速器这块,有惊喜但是不意外,一方面中科驭数的孵化于研究专用处理器设计的中科院计算所和计算机体系结构的重点实验室,手熟;另一面中科驭数的产品理论是
DPU
要做“
CPU
做不好的,
GPU
做不了的”计算任务,加速器是一个有效途径。这个理念,好,也不好,加速器是比较容易做出彩,做出差异化的地方,但是也是在通用标准化相反方向上行走,这个方向需要有强大的产业领导力才能驾驭。
KPU 2
代目前已经流片,下半年回片,这是四家中,芯片回来最早的,虽然并没有集成
ARM
处理器,还不是
soc
方案。希望回片之后,能够读到有关
FlashNOC
和
PPE
的论文,中科驭数主导的
DPU
白皮书是业界一流的白皮书,有实际产品支撑的论文水平也应该错不了。
云豹智能对
DPU
的历史解读, 是从数据中心的带宽从
10G/25G
向
100G
升级,服务器算力没有跟上数据中心的带宽发展,从而形成了剪刀差,而且一直占据核心地位的
CPU
更擅长做串行复杂处理,并不擅长大量并行的固定网络数据处理的技术发展本身来切入的。
相对于大禹智芯从公有云业务出发,云豹智能更像是遵循的是传统芯片公司的角度, 是从下而上的推动底层硬件创新。但云豹智能绝对不是一家传统芯片公司,它一直强调“软件定义芯片”,这个与中科驭数的“软件定义加速器技术”相同点在于通过软件可编程能力去完成
DPU
架构灵活性,不同点在于云豹从设计的第一天起,从需求开始,就在构建可软件定义的芯片架构。
本次的技术分享,大约遵循公司的信息分享原则, 云豹智能的发言人并没有把他们对
DPU
的定位,一款世界级的极度复杂的高端芯片这样的远大目标直白的说出来,而是相当保守地分享了一个简略架构图,花了更多的时间在软件框架上。这颗高端复杂芯片的定位,也是和云豹智能的创始人有深厚的半导体公司的背景相吻合。
云豹智能在去年发布了一个基于
FPGA
的
25G
网卡产品,软件栈方面,会和后续的
100G DPU
产品无缝对接,可以当作低速预览版。
整场技术分享中, 云豹罗列的一个
DPU
要解决的挑战任务表,倒是确实体现了他们对云计算业务痛点的理解。虽然他们并没有分享他们会如何一一解决。希望明年交付的云豹
DPU
芯片可以带来最终答案。一个打算最世界级芯片的公司还没有公布任何硬件指标, 也挺让人期待的。
公平讲,益思芯作为最后一个分享者,如果想避开前面已经重点分享过的内容,还是不容易的。益思芯非常小心的把自己的主题定为
P4
。
P4
这种
Domain-specific
编程语言,确实提供了一个简化硬件设计,也简易化的软件编程的数据包处理语言。最初
P4
是为交换机而设计的,发展壮大之后覆盖面扩大,包括所有从核心到边缘的所有网络设备,特别适合不停演进且定制倾向强烈的
overlay
网络的需求。更好的是,如果服务器网卡侧支持
P4
,互联的交换机也支持
P4
,理论上可以形成交换机
+
服务器的全数据中心数据面的联动,这就是
data center as a computer
的具体呈现了。
虽然是
David Patterson
把
DSA
这个词炒热的,
AI
界的人力捧,但做出彩的是网络界的人。
P4
是一个杰出
Domain-Specific
语言, 一个简单的
match-action
模型,精准的描述出数据包的处理模型,在抽象和具体之间,拿捏到位,既针对网络,又与协议无关,把数据面很好的抽象出来。而且近十年演进,加上
Intel
买了
Barefoot
,又在自己的
IPU
内加入
P4
引擎,
AMD
买了
Pensando
,
P4
跟随这两大大厂,走在成为数据面的事实标准语言的路上。
益思芯现在的
FPGA
版本,未来的
P4
引擎,大禹智芯现在的
FPGA
加速器,下一代
SOC
的
DSA
网络引擎,中科驭数的
NP
类型的
PPE
,云豹的完全可编程
DPU
引擎,都能够完成相似的
P4
功能。理论上
CPU
:
NPU
:
FPGA
:
DSA
的实现效率比是
1:10:20:80
,实际性能功耗就看各家的落地能力了,让我们坐等测试数据。
在本次技术分享中,益思芯大方地放出了目前
2X25G
的
FPGA
卡上的
3
层实测(非估计)转发性能,这一点值得鼓励,实测数字也是非常好。
无论是从业务卸载隔离出发, 从上到下的推动硬件创新,还是从下向上,用
DSA
硬件加速业务,业界对
DPU
的芯片架构认识趋于一致,必要的四个大子系统:通用的
CPU
子系统, 可编程的快速数据面,
NVMe/RDMA/
安全
/
压缩等加速引擎,再加上高速
IO
与存储接口子系统。
加速引擎可能是最能区别化不同厂商设计等部分, 也会是决定性能和灵活度关键技术点。但加速引擎也是一个双刃剑,光做硬件,软件生态没有跟上,效果归零。第一代的主打加速的
SmartNIC
, 例如原
Cavium
现在
Marvell
的
LiquidIO
, 博通的
Stingay
的结局并不算好。
当然,这么强大的一颗
DPU
芯片,不会仅仅作为网卡形式出现。格局打开,更多的产品形态就出现了,防火墙,负载均衡器,
5G RAN
控制器,交换机等等,例如
Asterfusion
公司的可编程交换机就是一个
P4 Switch+DPU
的超级豪华版本。
大家在白皮书
/PPT/
直播间里展示过的肌肉,最终都是要在机箱内,机架上实操的。
Talk is cheap
,
show me your chips
。
注
:本文只代表作者个人观点,与任何组织机构无关。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3100内容,欢迎关注。
『
半导体第一垂直媒体
』
实时 专业 原创 深度
识别二维码
,回复下方关键词,阅读更多
晶圆|集成电路|设备
|汽车芯片|存储|台积电|AI|封装
回复
投稿
,看《如何成为“半导体行业观察”的一员 》
回复
搜索
,还能轻松找到其他你感兴趣的文章!