来源:内容由半导体行业观察(ID:icbank)编译自「
nextplatfrn
」,谢谢。
在过去的二十年中,谷歌比其他任何公司都能证明,数据中心是新的计算机。这家搜索引擎巨头曾在2009年通过Urs Hölzle撰写的论文证明了这种““warehouse-scale machine” ”,现在这个论文的作者之一担任Google技术基础架构的高级副总裁。该文章的另一作者是Luiz André Barroso,他是Google核心产品的工程副总裁,在此之前曾是Digital Equipment和Compaq的研究员。
谷歌的论文及其超大规模同类产品的兴起表明了这种想法的优点,这引起了很多人的关注。有趣的是,最近,英伟达(Nvidia)收购了Mellanox Technology和Cumulus Networks,以及对Arm Holdings的期望收购都发现了“数据中心就是计算机”漏洞。
在花费了数十年的时间设计和完善其宏观系统之后,Google便将重心转移到系统的不同部分,想在摩尔定律的末日下生存下来,这就需要完成很多创新工作。对我们来说,将更多的晶体管塞入一块芯片中会变得更昂贵,而不是更便宜。
促成这一宣布的重大新闻是,谷歌已聘请芯片设计师Uri Frank担任Googleplex服务器客户端设计工程副总裁,该芯片设计师曾在英特尔为客户计算机开发过多代片上系统设备。Google研究员,现任公司系统基础架构副总裁Amin Vahdat则领导开发了遍及全球网络的人,该网络支撑着Google以及作为其庞大运营核心的数据中心级网络。日前,他花了一些时间向thenextplatform解释了公司为何聘请Frank,以及为何认为片上系统(SoC)将成为用于未来计算的、提高效率和规模的工程重点。
值得一提的是,Vahdat还是Frank的老板,因此他应该是最优资格谈论该策略的人。
Google所做的事情有些微妙,在谈论已经做了什么之前,他们正在谈论他们应该做什么,这对公司来说有点不寻常,Vahdat也承认了很多。我们指出,通常情况下,当Google谈论“新”事物时,它可能已经在5年前解决了该问题,并且直到现在才向世人介绍这一时间。MapReduce就是这种情况,它产生了Hadoop。然后是BigTable,产生了Drill;然后是Spanner,产生了CockroachDB。谷歌刚刚用它的Borg / Omega容器控制器将“中间人”带走,并将其克隆以创建Kubernetes,并将其开源。
我们认为Google不会在不久的将来开放源代码服务器SoC设计,但是如果它可以帮助推动其Google Cloud的销售,那么看到定制或半定制SoC被提供用于本地销售就不会感到惊讶。运行Anthos Kubernetes堆栈的数据中心或主机托管设施,它与您在内部获得的Google内容几乎一样。还是想假设Borg对Google特定的工作负载和基础架构进行了高度调整。
在招揽Frank的过程中,谷歌一定已经为其提供了一个颇具吸引力的offer,因为就在几周前,Frank还是英特尔以色列芯片设计团队的众多高管之一,而随着新任首席执行官Pat Gelsinger再次回到美国巨头担任CEO,他还被提升了。在担任核心与客户开发部总经理之后,他被提升为公司副总裁,该部在美国,以色列和印度拥有由2,000多名工程师组成的团队。
自大学毕业以来,Frank一直在Intel任职。他于2000年获得以色列MIT的Technion的电气和电子工程学士学位,随后又于2004年获得了由Intel资助完成的硕士学位。2011年,Frank被任命为工程技术总监,其团队超过200位工程师从事存储器控制器,PCI-Express控制器,电源管理电路以及片上环形和网状结构(on-chip ring 和mesh fabrics)的研究。2014年2月,Frank迁至英特尔在俄勒冈州Beaverton的办公室担任工程总监,并管理了负责Apollo Lake PC芯片的300名工程师,并于2016年被任命为负责核心SoC设计的工程高级总监。在2018年,Frank被任命为平台工程部副总裁,并担任PC,AI和IoT芯片产品开发总监,
在英特尔,服务器SoC设计始终从客户端SoC开始,因此Frank可以利用其领导定制服务器芯片开发也就不足为奇了。核心就是核心,这是英特尔一直以来的思考方式,而这恰恰是Vahdat所说的Google试图通过“加倍”定制芯片来解决的问题。服务器有时会执行与客户端不同的操作,即使客户端和服务器都执行这些操作,它们的比率和处理它们所需的带宽也不同。我们认为,也许Google在想的是我们需要一个真正的服务器核心,并且需要针对Google本身正在运行的各种工作负载进行调整的服务器核心。
谷歌并未宣布将创建自己的指令集和定制芯片,就像2015年使用Tensor处理单元(TPU)在其TensorFlow框架上运行机器学习训练和推理算法一样,或者在2019年创建了自己的视频处理单元(VPU),用于处理媒体服务器上的视频转码一样。正如Hölzle多次提醒我们的那样,谷歌只在绝对必要时才制造定制芯片,而且它多次获得半定制CPU并在其中进行了一些针对特定工作负载的调整,或者与合作伙伴一起创建了半定制磁盘。驱动器,闪存驱动器,网络接口卡或网络交换机。
“我想强调的一件事,这将继续成为现实,我们并不想全力以赴,” Vahdat告诉The Next Platform,“我们正在寻求与合作伙伴和生态系统尽可能多地合作,坦率地说,这种情况越来越多。十年前,我们在内部进行了更多工作,并试图将其保留在内部,但我们仍在继续与伙伴合作的趋势。我们制造了闪存驱动器,但从未制造过自己的NAND gates。但是在某些情况下,就像我们最初使用Flash一样,我们实际上必须证明某些东西有价值,然后其他人才能追随。”
Google拥有垂直集成的优势,它拥有从Linux内核一直到应用程序和数据服务再到Web浏览器的整个软件堆栈,这为自定义芯片或更高级别的自定义硬件提供了一些优势,Vahdat承认这一点。Flash是一个很好的例子。
如果您要制造一个视频芯片或闪存设备以供全世界使用,则它倾向于使用最低的公分母(这会限制特定的实用程序),或者倾向于使用非常广泛的功能集,这会使晶体管不必要地消耗功率,从而不必要地消耗功率。
Vahdat举例说,在仓库规模的计算机上编写数据放置或在闪存上进行垃圾收集的方式与使用一台笔记本电脑的方式大不相同。TPU和VPU是非常精确的设备,分别针对TensorFlow和YouTube或环聊进行了调整,瓦达达说。但是也许您只有在必要时才走那么远。
Google的工作负载规模越来越大,工作负载也越来越多,此外,公共云业务必须支持各种应用程序和系统软件。在这些情况下,最好(也是最经济)的方法可能是找到同类最佳的组件,并将它们集成到专门针对工作负载进行了调整的SoC中。这就是谷歌的SoC作为新的主板创意出现的地方。
“系统中的所有组件都集成在主板上,通常集成在PCI-Express总线上,” Vahdat说。集成和定制点就是主板。我们现在处于一个平衡应用程序需求和效率的位置,很难知道要在主板上放置多少特定设备。而且实际上很难协调应用程序代码,以能够管理所有用完PCI-Express总线的设备之间的数据移动和存储。
在不谈论细节的情况下,我们所谈论的是在基本级别上对组件进行创新,并在重要的时刻和地方将它们组合在一起,针对各个应用程序进行自定义(就像我们在存储,机器学习和视频方面所做的一样),它们都放在新主板上。
这并不一定意味着将来自不同供应商的芯片集成到一个封装中,但这可能是Frank和他的团队将探索的一部分。这并不意味着使用CXL这样的协议将主板扩展到单个机箱之外,尽管Google显然会使用CXL以及可能适合将计算和存储元素链接在一起的其他协议(例如CCIX或Gen-Z。
他的意思是,如果Google仍要继续向其系统中渗透类似于摩尔定律的改进,则需要专门化。(正如Hölzle 在很多年前向我们指出的那样,谷歌将竭尽所能击败摩尔定律,因为这是超大规模生产者必须要做的事情,也只有这样才能继续保持运营。)
Vahdat解释说:“在过去,当事情以指数级速度快速增长时,专门针对单个工作负载是没有意义的。那时,在Google,我们的工作量也减少了。因此,专门针对其中的几个就足够了。在云世界中,考虑到我们托管的服务数量,我们不再需要一个特定的应用程序主导。因此,这种能够集成最好IP的模型,尽可能多地购买它并在有意义的任何地方与其他人合作,使我们能够快速地专门针对单个应用程序。”
从某种意义上说,谷歌真正想做的就是教导芯片制造商以一种他们实际上没有,而且从没有过的方式进行合作。试想一下,如果您可以采用英特尔,AMD,IBM和Nvidia的分立技术,并制造出正确类型的特定计算设备。这就是Google梦寐以求的事情,如果Google在各地购买一些IP并将其集成以证明其有效,那么可能会发生。也许它将首先在小芯片级别上发生。
Vahdat强调说:“我们只想做尽可能少的事,专注于我们必须要做的事。这是Google数十年来始终如一的宗旨。Google只会建立它所必须的。“我认为这取决于我们最终要整合的是什么以及特定的用例。但是同样,我们希望尽可能少地做这种理想的领先行业,以便随着时间的流逝减少这种情况。从长远来看,这不是我们想要的业务。”
★ 点击文末
【阅读原文】
,可查看本文原文链接!
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第2624内容,欢迎关注。
『
半导体第一垂直媒体
』
实时 专业 原创 深度
识别二维码
,回复下方关键词,阅读更多
晶圆|集成电路|设备|模拟芯片
|射频|传感器|美国|光刻
回复
投稿
,看《如何成为“半导体行业观察”的一员 》
回复
搜索
,还能轻松找到其他你感兴趣的文章!