如果能对上面这些战略意图形成共识,你会发现,NV所行,不是意图颠覆现状、大杀四方,也不是意图吞食天下、唯我独尊。
NV所行,乃王者之道。
天下如棋,一步三算。
所以我只能假设我站在黄仁勋的视角,讲一讲我是如何布局天下。和上面这几点完成映射。
计算的未来是云化。
这一点我不详细展开了。
云化带来算力的普世化,普世化很重要,而其后人民群众对美好生活的进一步的诉求将会直接推动云化算力的大幅增长。
这就是东风之所在了。
而云计算当前困难,如我在这个帖子所述,
是算力的增长依赖于DSA后在云上如何高效部署的困难。
这里首先要纠正一个误解,很多人在讲数据中心做异构的时候,总是认为异构计算的主要矛盾在于如何隐藏异构的差异性,并且通过某些框架或调度,让最合适的DSA算最合适的算子,用户对此并不感知。
并不是。
这一点其实是在我2014年左右去西雅图推销arm服务器时被微软当头棒喝敲醒的。
“我并不需要你帮我省电,而是希望你帮我把更多的电变成更多的钱”
数据中心的本质是一个转化器,把电转换为算力并卖成钱。低功耗、计算效率,都不能直接折算成数据中心的收益,省下的电那还是电罢了,最大可能把满载的电都变成钱,让每一台设备充分运转才是第一要素。
所以当前数据中心的当前主要困难,是DSA部署之后,如何高效地搭配用户的诉求,1:1 or 1:2 or 1:0.3,高效灵活地配置。帮助隐藏异构什么的,生态不好才那么干呢……也许以后是趋势,但当前用户实际上并不喜欢。
所以当前的困难是如何在iaas上部署好DSA,至于对性能有极致诉求的用户,引导购买定制化的BMS裸机。
那么,在黄大王的视角中,这个问题的答案就呼之欲出了。
其实在GTC的演讲中,拼图的各个部件已经展示过了……但是老黄并不明示全局,遮遮掩掩的。
像下面这张图,讲得就很突兀…
看完GTC,你是否有很多问号。NV为何从不解释DPU和IPU之间的关系?NV搞这么个grace是要卖给谁?数据中心连RDMA都没部署起来,DPU的direct搞来干嘛?以太网交换机和IB交换机微架构差别巨大(前者共享buffer后者不是),NV为啥花这么大代价维持两个团队?
那么多独立部件,联动起来,才是全局。
我来揭秘吧……
……请不要嫌我画图烂,手机上随手画的,价值百万和画的好不好没直接关系,看得懂的同学知道值多少。
DC as a computer,异构计算云,disaggregated computing,这几个名字他都是。
传统的CPU依旧还在,面向用户部署在数据中心,用户的VM还是部署在这上面。
IPU,基于VM的多样性,安全/隔离/迁移等诉求,一个极其完备的OVS和定制化的服务将部署在IPU上,此I说代表,就是infrastructure如词所述,英语的表达从不笼统。
通过标准的ETH交换机,白牌的,或者NV下属MLX的,用户overlay在传统ETH的underlay上。
GPU通过IPU和assist cpu同样以iaas的方式部署在ETH网络上。
assist CPU就是grace啦,它并不会真正以VM的方式卖给用户,而是以搭配GPU的方式运行一个轻量级VM及GPU驱动,这个轻量级VM的真正价值在于它会成为user CPU的VM的镜像或者service,被cloud灵活配搭给需要GPU的用户。所以grace在设计上并不需要实现一个x86那样复制的虚拟化机制,ARM是更好的选择。
DPU如字面所述,D代表的真的就是data,它支持的特性与IPU在字面上可能是差不多的,但是他在设计基于这一个场景的定制化特性,在DPU上的VM数量是有限的(mig数量),也不会迁移,rdma倾向于固定topology进行,这样OVS的设计相比IPU可以大幅简化,把重心放到data平面。通过IPU和DPU的配搭和管理,实现用户VM和GPU VM的灵活比例映射。
Grace+dpu,可以实现BMS或者iaas下GPU池化,并不需要支持完备iaas本身,这大幅减少了设计复杂度,这也体现在Nvidia的j架构设计意图上。
在GPU之后,IB和nvlink作为第二交互平面存在。
整个右半平面,可以完美兼容当前各种iaas,也能随时切换为bare metal。各个部件打散重新定制也能满足某些特定saas或faas。
这就是一个兼容iaas,并不期待颠覆现状,尊重了现有Intel和AMD的已有市场,尊重当前用户编程方式和过去的代码资产(切蛋糕的方式几乎都没变),解决了异构DSA在数据中心异构部署和池化的难题的整图。
Intel购买的公司就没一个成的,但是Nvidia在它完整的战略规划下,它成功或者不成功购买的公司,都形成了其完整蓝图的战略控制点,并且为其他公司的市场留下了足够的空间。
ps:国内的IPU是成功不了的,因为每家cloud vendor都为其客户在OVS上深度定制了安全和隔离带机制,这本身就是cloud vendor的秘密和利益空间。
ps:国内做DPU也是成功不了的,因为Nvidia做DPU那是为了卖他家的GPU,卖GPU送DPU送CPU啦,大概是这样……
最终,Nvidia看到的,是云化带来的算力普世性并以此引发的,在数据中心算力膨胀带来的更大的增长空间。
我Nvidia,和Intel并不敌对,你有你的未来我有我的,只是我相信的未来,会更加强大。
写到最后,感慨一下。
我这最近最为深刻感受到老黄的王者之气,是老黄在GTC大会的记者问中的一句话,从语法来看,是诚恳的。
“i am a big believer in PCIe……”
谁都知道,PCIe对Nvidia的GPU发展制造了巨大的障碍。但是老黄依旧能说出这样的表达,因为他尊重历史,尊重即有的规则,即使它给我造成了障碍,但我并不怨他。尊重历史,展望未来,我终将为王。
一点点感慨,让我想到了中美之间的一些事……
也许我们也都应该有这样的气度,尊重过往,尊重你建立的即有规则,即使你不断制造障碍,但面对新时代的挑战,我对我将创造的未来充满信心。