AWS做交换机芯片的逻辑

2021-04-08 14:00:10 来源: 半导体行业观察

来源:内容由半导体行业观察(ID:icbank)编译自「 nextplatform 」,谢谢。


得益于2015年以3.5亿美元收购了Annapurna Labs,亚马逊云服务公司(AWS)可以借助基于Arm的CPU和相关的DPU来开拓自己的道路。但是在可预见的将来,它必须提供基于X86处理器(可能同时来自Intel和AMD),因为这是世界上大多数IT商店运行其大多数应用程序的芯片。

在最近对其Graviton2实例及其与X86实例进行比较的分析中,我们谈到了这一点。我们甚至认为AWS在将来的某个时候会为该X86计算收取额外费用。其他云提供商也将效仿AWS的举动。据我们所知,在中国,包括腾讯和阿里巴巴在内的云服务商都对Arm服务器芯片有所期待,在北美和欧洲拥有庞大云服务的微软也有同样的想法。

对于云客户而言,他们在交换机或路由ASIC 上并没有像CPU那样明确的支持,这就是为什么我们认为,正如传闻中的那样,AWS可能实际上正在考虑制造自己的交换机ASIC 。

长期以来,AWS长期一直在构建自定义服务器和交换机,过去十年来,它一直在关注其零件供应链以及堆栈的垂直整合。我们在六年前说过,如果所有超大规模生产商最终完全控制了其内部使用的半导体部分,我们并不会感到惊讶。届时云用户从未见过的后端基础架构的一部分,或者客户从未接触过的平台服务或软件订阅的的任何半导体都可以使用自主开发的ASIC来完成。我们认为这会在AWS,Microsoft,Google和Facebook等互联网巨头上发生。阿里巴巴,腾讯和百度和其他在世界其他地方拥有足够大市场的云供应商也会积极参与其中。

对于交换机和路由器芯片来说,确实是这样。购买基础设施服务的人(甚至购买基础设施服务之上的任何平台服务的人)基本上看不到网络芯片,实际上,网络本身对他们来说是看不见的。这是一个看不见的例子。几年前,当我们访问位于华盛顿州昆西的Microsoft时,我们向负责Azure计算的公司副总裁Corey Sanders询问了支持Azure的Microsoft网络的总带宽。“您知道,老实说,我不知道-而且我不在乎,”桑德斯告诉我们。“它看起来是无限的。”

关键是,无论AWS和Broadcom正在进行什么推动和推动,它都永远不会表现为客户看到或关心的事物。

关于 hyperscalers,市场上有很多讨论,因此让我们从显而易见的内容开始。所有这些公司都一直讨厌任何封闭式的设备,因为它们无法拆开盖子,撕开并根据自己的独特需求和规模进行大规模定制,然而这是绝对正确的行为。

Hyperscalers 和公有云打破了性能和规模壁垒,这是地球上大多数公司(以及绕着Rigel和Sirius运转的公司)永远不会遇到的,但那是他们需要的,而不仅仅是他们的骄傲。Hyperscalers和最大的云建设者所面临的问题是芯片供应商及其OEM和ODM所能想到的。而且,它们无法以Cisco Systems的速度发展,这是一个问题。因为他们需要花费18到24个月的时间才能将功能引入下一代ASIC。这就是为什么软件定义的网络和可编程交换机对他们如此重要的原因。

最终,这些公司为分散的交换和路由进行斗争,以降低硬件价格,并允许他们将自己的网络交换和路由软件堆栈迁移到更多种类的硬件上。这样,他们就可以使ASIC供应商和OEM以及现在的ODM相互竞争。他们做出这样决定原因很简单,那就是网络成本呈爆炸式增长。

AWS的杰出工程师詹姆斯·汉密尔顿(James Hamilton)协助构建了许多自己的基础设施,他在2014年末的re:Invent会议上对这一切进行了解释,那是发生子啊云巨头开始设计自己的交换机和路由器五年后。

汉密尔顿(Hamilton)在Re:Invent 2014的主题演讲中解释说:“网络现在对我们来说是一个红色警报情况。相对于所有其他设备,网络设备的成本正在快速上升。这是反摩尔定律的,因为我们其他所有的设备都在降低成本,我们也正在降低价格,而网络却往错误的方向发展。这是一个非常大的问题,我想研究几年,并且看到网络问题的规模不断恶化。在网络正在抵抗摩尔定律的同时,网络与计算的比例也在上升。”

他谈这个的时机很有趣。那是在AWS接受来自Broadcom的交换和路由ASIC的商用芯片之后。这发生在Hock Tan运营的一家半导体企业Avago斥资370亿美元收购Broadcom的六个月前,收购半导体制造商Broadcom并以此为名。

从黑匣子的外部来看,AWS和新的Broadcom合作了很长的一段时间。对于所有hyperscalers 和大型云构建者来说,这可能同样适用。这就是为什么我们从2009年开始看到Fulcrum Microsystems和Mellanox Technology兴起的原因(Fulcrum在2011年被Intel吞并,Nvidia在2020年把Mellanox吞并),然后是下一波商业芯片供应商,例如Barefoot Networks(由Intel收购),Xpliant(2014年被Cavium收购,(由Marvell在2018年收购),Innovium(由Broadcom和Cavium的人创立),Xsight Labs和Nephos。

当然,现在思科系统正在努力弥补所有这些缺陷,尝试将其Silicon One ASIC变为商业芯片。

Hock Tan收购公司是为了获取利润,因此他并毫不犹豫地将Broadcom正在开发的“ Vulcan” Arm服务器处理器出售给Cavium,后者被Marvell收购,并于去年关闭了自己的“ Triton” ThunderX3芯片,因为hyperscalers 指望的云构建者客户将构建自己的Arm服务器芯片。鉴于旧的Broadcom基本上已经通过其“ Trident”和“ Tomahawk” ASIC创造了现代交换ASIC商用硅市场,我们推测,新的Broadcom希望比较小的旧Broadcom能够更积极地为其ASIC定价。新的Broadcom在这些hyperscalers 和云构建者中占有更大的份额,他们中的许多人还构建了需要大量硅的其他设备。因此,买卖双方之间存在某种缓和。

我们还必须相信所有这些竞争都直接或间接上海了Broadcom交换机和路由器ASIC业务。因此,我们也相信Hock Tan要求超大规模开发者和云构建者为他们的ASIC支付比他们想要的更多的钱。

他们拥有比过去更多的选择,但变革总是困难而冒险。

我们不知道云供应将使用哪些ASIC,但是我们必须假设所有这些公司在开发和进入第一个芯片时,都希望在各自的硬件上试用了他们自己的网络操作系统。他们选择在网络中的什么地方进行部署,但是最近几年的安全押注是用于交换的Broadcom Tomahawk ASIC和用于路由的Jericho ASIC,并可能以Mellanox或Innovium或Barefoot作为测试和谈判策略。

这种策略可能会在AWS上沿用,如果这样做,原因不仅是硬着头皮和自豪感,还在于2015年以3.5亿美元的价格收购Annapurna Labs的成功。因此,AWS可能已决定自行创建网络ASIC。让我们从几个角度来看这件事,首先就是经济学问题。

我们听说,AWS每年仅花费约2亿美元购买Broadcom的交换和路由ASIC。我们相信这个数字要大得多。

让我们做一些数字计算。以具有100,000台服务器的典型超大规模数据中心为例。我们不在乎它们是计算服务器还是存储服务器,平均而言,这些机器中大约有200,000个CPU。从与我们交谈的人到谁为服务器CPU谋生,您每年需要消耗大约40万至500,000个服务器,这意味着每年要消耗80万至100万个CPU,这是因为设计芯片的成本和麻烦,而这些成本将介于每代分别为5000万美元和1亿美元。这不包括制造这些芯片,封装它们以及将它们发送到ODM以构建系统的成本。AWS显然在其25个区域和80个可用区(每个都有如此规模的多个数据中心)中消耗了足够的服务器。

现在,根据网络拓扑的不同,那些具有200,000个服务器芯片的100,000台服务器将需要4,000到6,000个交换ASIC,以形成leaf/spine Clos网络来互连所有这些机器。假设在这25个区域中,每个可用区平均有两个数据中心(合理猜测),每个数据中心平均有大约75,000台计算机(在任何给定时间并非所有数据中心都已满),那就是1200万台服务器和2400万台服务器CPU。

根据拓扑的不同,我们现在讨论的是整个AWS舰队中的480,000到720,000个交换ASIC。平均而言,服务器每三年更换一次,但是交换机的使用周期长达五年的时间。有时更长。因此即使以每年20%的速度增长,每年也只是大约有100,000到144,000个开关ASIC。,

但是,这只是计算了数据中心的交换,并不包括AWS的所有交换需求,这些需求将成为其Amazon Go商店和Amazon仓库(本身就是大规模运营)的一部分。如果服务器数量持续增长,而其他业务也是如此,那么亚马逊的整体数据中心以及园区和边缘交换需求将很容易证明制造网络芯片的成本和麻烦。

来到路由方面,拥有一套本地化的ASIC,其架构可同时覆盖交换和路由,就像思科正在使用自己的Silicon One(思科无疑希望将其出售给AWS,但祝您好运)一样,您可以很轻松地实现这一目标。因为每一代ASIC大约需要投资1亿美元。(Barefoot Networks筹集了2.254亿美元,用于生产两代Tofino ASIC,而Innovium筹集了4.02亿美元。

现在,让我们从技术角度再谈谈。

Annapurna Labs在AWS内如此成功的原因在于,它于2016年发布了最初的“ Nitro” Arm处理器,该处理器用于创建SmartNIC ,行业中许多人现在将其称为“数据处理单元”或“数据平面单元”,具体取决于,但还是采用DPU的方式——虚拟化存储和网络,并使其脱离服务器上的管理程序。

现在,新的Nitros在CPU之外的所有虚拟机管理程序中都受到了关注,并且功能更加强大。基于此产生了用于原始计算的Graviton和Graviton2 CPU,用于机器学习推理的Inferentia加速器以及用于机器学习培训的Trainium加速器。我们不会惊讶地看到具有大量big fat vectors 的HPC变体从AWS中问世,并且还充当混合HPC / AI工作负载的推理引擎,承担着双重职责。

自家生产的CPU始于特定领域,并迅速在AWS内部的所有计算中传播。网络芯片也可能发生同样的情况。

AWS控制其自己的网络操作系统堆栈以进行数据中心计算(我们不知道其具体名称),并且可以将该堆栈移植到感觉上的任何ASIC。它在其边缘和Amazon Go位置具有开源的Dent网络操作系统。

重要的是,AWS可能会研究Nvidia在“ Volta”和“ Ampere” GPU上使用的处理方式,并决定需要创建一个使用内存协议的开关,以创建类似NUMA的Trainium芯片集群,以运行更大的机器学习训练。它可以开始将交换机嵌入Nitro卡中,或者使用机架内和机架间的以太网交换来构建可组合的基础架构。

如果AWS制造的每个CPU都拥有便宜的以太网交换机而不是以太网端口怎么办?这是我们要记住的重要事情。

来自Annapurna Labs的人员迁移到AWS已有深厚的网络历史,他们的一些最亲密的同事现在在Xsight Labs。因此,当AWS正在从Xsight Labs测试ASIC以了解它们如何与Broadcom的芯片竞争时,关于本地网络ASIC的讨论可能还是有些模糊。

又或者,在选择AWS作为Nitro芯片设计商和制造商之后,AWS像收购Annapurna Labs那样,再次收购Xsight Labs,这也不是不可能的事。去年12月,Xsight Labs宣布将对其X1系列中的两种交换机ASIC进行送样,其中一种具有25.6 Tb / sec的总带宽,可以将32个端口以800 Gb / sec的速度推入,而另一个拥有12.8 Tb / sec的带宽,可以以32 Gb / s的速度推入。在使用100 Gb /秒SerDes和PAM4编码,速度可达到400 Gb /秒。

组建一个AWS所需能力的网络ASIC团队将很困难,但并非并非不可能。但是正如我们指出的那样,Annapurna Labs的人是一个很好的起点。我们完全意识到,设计由SerDes封装的数据包处理引擎与设计和由一系列内核封装的I / O和内存集线器所需要的技能完全不同。

我们认为,这一切都始于Galileo Technology。该公司由Avigdor Willenz于1993年成立,专注为嵌入式市场开发高性能MIPS RISC CPU。伽利略(Galileo)创造的这种芯片最终主要用于数据通信设备中,并最终基于PowerPC内核进行了设计,在Arm芯片推出之前,该芯片最终统治了嵌入式市场。

在1996年,Galileo抓住了机遇,并致力于创建用于LAN的GalNet系列以太网交换机ASIC(于1997年推出),并最终将其扩展到用于WAN的Horizon ASIC。在2000年初互联网热潮的高峰期,Willenz变现并以27亿美元的价格将Galileo卖给了Marvell。

如果价格不算太高,那么AWS收购Xsight Labs团队的可能性与从头开始建立自己的团队一样。如果没有,那么也许AWS会考虑购买Innovium,该公司还将400 Gb / sec以太网ASIC投入领域。凭借上一轮融资,Innovium达到了独角兽的地位,因此其12亿美元的估值可能对AWS的血液而言有点可观。这很大程度上取决于Innovium在我们怀疑已经与AWS合作的任何业务之外销售Teralynx ASIC的吸引力。奇怪的是,最后一轮资金可能使Innovium太昂贵,以至于AWS难以购买。

如果您大吃一惊,我们认为AWS肯定会使用自己的网络ASIC,这只是时间问题。其中包括该公司垂直整合其堆栈核心元素的愿望。

尽管有种种谣言四处流传,但这可能不是现在。再说一次,随着时间和规模的增加,一切都会变得更加昂贵。无论发生什么情况,我们都怀疑在re:Invent的某个时刻会听到有关定制网络ASIC的消息,甚至有可能是今年秋天。


★ 点击文末 【阅读原文】 ,可查看本文原文链接!


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2639内容,欢迎关注。

推荐阅读


日本存储最后一根独苗,保不住了?

台积电正在研究的先进技术

存储市场的新变数


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码 ,回复下方关键词,阅读更多

晶圆|集成电路|设备|模拟芯片 |射频|博通|美国|台积电

回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!


点击阅读原文,可查看本文
原文链接!
责任编辑:Sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论