特斯拉表示:没必要自制芯片

2022-07-21 14:00:14 来源: 半导体行业观察

来源:内容来自 半导体行业观察(ID: icb a nk)综合, 谢。

在第二季度的财报会议上,特斯拉方面表示,特斯拉没有必要自己制造芯片,会和供应商合作,特斯拉已经使用了大量定制芯片。同时,特斯拉也在通过改写软件、把多种功能集合起来等方式,来减少芯片使用、应对芯片供应问题。


早在2019年四月,特斯拉正式发布了其自研自动驾驶芯片,按照马斯克的说法,这款由三星负责代工的自研芯片已是“世界上最好的芯片”,远超其他竞争对手,其性能已是此前使用的英伟达芯片的21倍。特斯拉认为,在性能大幅度提升的同时,其自研芯片成本和功耗均较此前使用的方案更低。


到了去年,特斯拉又宣布了其最新的Dojo芯片。


特斯拉Dojo芯片,领先竞争对手一个数量级


特斯拉刚刚召开了他们的人工智能日,并透露了其软件和硬件基础设施的内部工作原理。此次公开的部分一是之前公开的Dojo AI训练芯片。特斯拉称他们的 D1 Dojo 芯片具有 GPU 级别的计算能力、CPU 级别的灵活性,以及网络交换机IO。

几周前,我们推测该系统的封装是 TSMC 晶圆集成扇出系统 (InFO_SoW)。我们解释了这种类型的封装的好处以及这种大规模扩展训练芯片所涉及的冷却和功耗。此外,我们估计该软件包的性能将优于 Nvidia 系统。所有这些似乎都是有根据的推测。今天,我们将深入的挖掘更多的半导体细节。


在我们深入讨论硬件之前,让我们先谈谈评估基础架构。特斯拉不断地重新训练和改进他们的神经网络。他们评估任何代码更改以查看是否有改进。在汽车和服务器中部署了数以千计的相同芯片。他们每周进行数百万次评估。


多年来,特斯拉一直在扩大其GPU集群的规模。如果特斯拉停止所有实际工作负载,运行Linpack,并将其提交到Top500榜单,他们目前的训练集群将成为第五大超级计算机。然而,对于特斯拉和其雄心来说,这种性能的扩展是不够的,所以他们在几年前就开始开发自己的Dojo芯片项目。特斯拉需要更高的性能,以节能且经济高效的方式实现更大、更复杂的神经网络。


特斯拉的架构解决方案是分布式计算架构。当我们听他们的细节时,这个架构看起来很像Cerberus。我们分析了Cerebras晶圆级引擎及其架构。每个AI训练架构都是以这种方式布置的,但计算元素、网络和结构的细节差别很大。这些类型的网络最大的问题是扩大带宽和保持低延迟。为了扩大网络规模,特斯拉特别关注于此,这影响了他们设计的每个部分,从芯片材料到封装。


该功能单元被设计为可通过1个时钟周期,但足够大,以至于同步开销和软件不是主要问题。因此,他们得出的设计几乎和Cerebras一模一样。由高速结构连接的单个单元的网状结构,该结构在一个时钟内的功能是单元之间的路由通信。每个单元都有一个大的1.25MB SRAM暂存板和多个具有SIMD功能的超标量CPU核,以及支持所有常见数据类型的矩阵乘法单元。此外,他们还引入了一种名为CFP8的新数据类型,可配置浮点8。每个单元可在BF16 / CFP8上支持1TFlop,FP31上64GFlops,每个方向512GB/s的带宽。


CPU也是毫不逊色,它在矢量管道上是4宽2宽。每个核心可以承载4个线程,以最大限度的提高利用率。遗憾的是,特斯拉使用了定制的ISA,而不是像 RISC V 这样的顶级开源 ISA。这个定制的ISA引入了转置,收集,广播,和链接遍历的指令。

这354个功能单元的全芯片可达到BF16或CFP8的362 TFlops和FP32的22.6 TFlops。它总共有645mm²和500亿个晶体管。每个芯片都有惊人的400W TDP,这意味着功率密度高于大多数配置的Nvidia A100 GPU。有趣的是,特斯拉实现了每mm²上集成7750万个晶体管的有效晶体管密度,仅次于移动芯片和苹果M1,比其他所有高性能芯片都要高。


基本功能单元的另一个有趣的方面是NOC路由器。它与Tenstorrent有非常类似的在芯片内部和芯片间的扩展方式。毫不意外,特斯拉正在采用与其他备受推崇的人工智能初创公司类似的架构。Tenstorrent 非常适合扩展培训,而特斯拉非常关注这方面。

在芯片上,特斯拉拥有惊人的10TBps定向带宽,但这个数字在实际工作负载中没有多大意义。特斯拉相对于Tenstorrent的一个巨大优势是芯片之间的带宽要高得多。他们在 112GTs 上有 576 个 SerDes。这产生了总共 64Tb/s 或 8TB/s 的带宽。

我们不确定特斯拉每条边的4TB/s是从哪里得到的,更有可能是X轴和Y轴上的数字。先不说这张令人困惑的幻灯片,这个芯片的带宽是疯狂的。目前已知的最高外部带宽芯片是32Tb/s网络交换机芯片。特斯拉能够通过大量的SerDes和先进的封装将这个数字翻倍。


特斯拉通过PCIe 4.0将Dojo芯片的计算平面连接到连接主机系统的接口处理器上。这些接口处理器还支持更高的基数网络连接,以补充现有的计算平面网格。


25个D1芯片被封装成 “扇出晶圆工艺(fan out wafer process)”。特斯拉并没有像我们几周前猜测的那样确认这个封装是台积电的集成晶圆扇形系统(InFO_SoW),但考虑到疯狂的芯片间带宽和他们特别提到的扇出晶圆,这看起来很有可能。

特斯拉开发了一种专有的高带宽连接器,可以保留这些芯片之间的芯片外带宽。每个芯片都有令人印象深刻的9PFlops BF16/CFP8和36tb /s的off-tile带宽。这远远超过了Cerebras的晶圆外带宽,使特斯拉系统的横向扩展能力甚至比横向扩展设计(例如 Tenstorrent 架构)还要好。


电源传输是独一无二的,定制的,也非常令人印象深刻。由于具有如此大的带宽和超过 10KW 的功耗,特斯拉在电力传输方面进行了创新,并垂直供电。定制稳压器调制器直接回流到扇出晶片上。功率、热量和机械都直接与芯片连接。


即使芯片本身的总功率只有10KW,但芯片的总功率仍然是15KW。电力传输、IO和晶圆线也在消耗大量的电力。能量从底部进来,热量从顶部出来。特斯拉的规模单位不是芯片,而是25块芯片。这个贴图远远超过了Nvidia, Graphcore, Cerebras, Groq, Tenstorrent, SambaNova,或任何其他AI训练项目的单位性能和扩展能力。

所有这些似乎都是非常遥远的技术,但特斯拉声称,他们已经在实验室的真实人工智能网络上以2GHz的频率运行了芯片。


扩展到数千个芯片的下一步是服务器级别。Dojo可扩展为2 x 3的tile配置,在一个服务器中有两个这样的配置。对于那些在家计数的人来说,每个服务器总共有12个tile,每个服务器总共有108个PFlops,超过100,000个功能单元,400,000个定制核和132GB SRAM是令人震惊的数字。


特斯拉不断扩大其网格中的机柜级别。芯片之间没有带宽中断,它是一个具有惊人带宽的同质芯片网格。他们计划扩大到10个机柜、1.1 Exaflops、1,062,000个功能单元、4,248,000个核心和1.33TB的SRAM。


软件方面很有趣,但我们今天不会太深入讨论。他们声称他们可以对其进行虚拟细分。他们说不管集群的大小如何,软件都可以在Dojo处理单元(DPU)之间无缝扩展。Dojo 编译器可以处理硬件计算平面的细粒度并行和映射网络。它可以通过数据模型图并行性来实现这一点,但也可以进行优化以减少内存占用。

模型并行性可以跨芯片边界扩展,甚至不需要大批量的轻松解锁具有数万亿参数甚至更多参数的下一级AI模型。他们不需要依赖手写的代码来在这个庞大的集群上运行模型。

总的来说,与英伟达的GPU相比,成本相当,但特斯拉声称他们可以实现4倍的性能,每瓦性能提高1.3倍,减少5倍的面积。特斯拉的TCO优势几乎比英伟达的AI解决方案好一个数量级。如果他们的说法是真的,特斯拉已经超越了人工智能硬件和软件领域的所有人。我对此表示怀疑,但这也是硬件极客的美梦。

我们都要试图冷静下来,等一等,看看它什么时候会实际部署到生产环境中。

华尔街日报:特斯拉如何成为

芯片危机中的大赢家?


在汽车业饱受半导体短缺和全球供应链堵塞困扰的一年里,特斯拉(Tesla Inc., TSLA)成为该行业最大的赢家之一。该公司的成功在某种程度上要归功于其出身于硅谷。


分析师预测显示,马斯克(Elon Musk)的这家电动汽车制造公司今年的汽车产量将比2020年增长约80%,有望实现2018年以来最快的年产量增速。根据IHS Markit的数据,在供应链中断的严重冲击之下,全球汽车行业的汽车产量料较去年增长约1%,较2019年减少15%。


业内高管和顾问表示,特斯拉之所以能够保持生产线运转,部分原因是依靠该公司的内部软件工程专业能力,这使特斯拉在适应全球半导体短缺的情况时比其他很多对手车企更游刃有余。从电机控制到手机充电,芯片的使用无处不在。


例如,该公司的首席执行官马斯克称,今年早些时候面对短缺问题时,特斯拉能迅速修改必要软件,将替代芯片集成到其车辆中。


半导体高管和顾问表示,特斯拉作为一家相对年轻的车企,优势在于从零开始设计汽车,而不是像许多传统车企那样,数十年里一直零敲碎打地增加零部件。其中一些高管和顾问称,这种优势使特斯拉有能力整合系统。


贝恩公司(Bain & Co.)对特斯拉2019年款Model 3的研究显示,在Model 3轿车内,只需一组半导体就可实现扬声器控制、语音和手势识别等功能,而在许多别的车型中,这些功能需要采用更多的芯片分别控制方可实现。


半导体供应商Microchip Technology Inc.(MCHP)首席执行官Ganesh Moorthy称,与传统车企相比,专注电动汽车的车企更深耕技术领域,因此获益匪浅。


Moorthy表示:“在许多情况下,这些车企更热衷于接受新信息,我认为这也是其打造的产品能更加灵活的原因。”


特斯拉没有回复关于其芯片采购战略的置评请求。


传统的汽车制造商通常会让零部件供应商负责采购芯片。一些半导体行业高管和分析师表示,马斯克更喜欢在内部生产汽车零部件,这意味着特斯拉在某些领域的供应链更具可见度,在危机爆发前,特斯拉与半导体公司建立了密切的关系。例如,特斯拉设计了一种电脑,使其先进的驾驶员辅助技术能够应用于新型汽车。


高通公司(Qualcomm Inc., QCOM)负责汽车业务的Nakul Duggal说:“如果他们决定自己制造什么东西,那么他们就必须与半导体供应商建立直接关系。”高通是一家芯片设计公司,并为特斯拉供货。


芯片短缺可以追溯到2020年底,当时汽车需求从疫情低点反弹的速度快于预期,让汽车制造商措手不及。


根据咨询公司AlixPartners LLP的数据,如果没有足够的半导体,今年全球汽车厂商或生产大约7,700万辆汽车,比1月份的预期低约9%。


特斯拉首席财务官Zachary Kirkhorn在10月称,特斯拉在芯片行业的专业知识以及向供应商持续传递信息的做法为该公司应对供应链挑战带来了帮助。


Kirkhorn对分析师表示:“我们从未向供应商下调产量预期,我们正尽快增加产能。”


特斯拉也没能幸免于供应链问题的冲击。该公司旗下工厂已开工不足,2月份还曾因零部件短缺而关闭位于加州弗里蒙特的工厂。特斯拉还采取变通办法应对短缺,据一位知情人士透露,马斯克让工人们先制造不安装部分零部件的汽车,之后再补齐这些零部件。


马斯克以芯片短缺为由推迟了新车型的推出。外界期待已久的特斯拉电动皮卡和半挂式卡车原定于今年投产,现在分别推后到2022年和2023年。


传统车企如今正变得更看重芯片技术。上个月,福特汽车公司(Ford Motor Co., F)和通用汽车公司(General Motors Co., GM)都宣布与半导体公司签订了开发计算机芯片的协议。


研究公司Gartner Inc.预测,到2025年,市值最大的10家汽车制造商中将有一半会自己设计至少部分芯片。


高管和律师表示,与此同时,全球对于电动汽车的追捧以及特斯拉不断上升的市值,已经使马斯克的特斯拉在一些零部件供应商眼中成为更有价值的客户。


代表汽车部件供应商的底特律地区律师Dan Sharkey表示,他的一些客户乐意为特斯拉做一些他们不愿为其他汽车制造商做的事情。Sharkey说:“这些供应商觉得抓住特斯拉就像抓住了一颗冉冉上升的新星。”他说,特斯拉产量相对较小这一点有的时候是对该公司有利的。“因为很容易产生这样的想法,好吧,我们把这些小规模的订单处理好就行了。”


特斯拉有望轻松达成自己设定的目标,即总交付量比去年的近50万辆多出50%。今年头九个月,特斯拉把627,000多辆汽车交到客户手上。特斯拉的规模相对较小,外加市场对电动汽车的需求升高,使得该公司较容易保持快速增长态势。特斯拉还把向客户交付汽车作为优先事项,哪怕一些车辆缺少少数几样零部件。


现年39岁、居于德国汉堡的Mo Siddiqui表示,本月初他收到来自特斯拉的讯息,被告知受供应链问题影响,他购买的价值约7万美元的Model Y紧凑型SUV可能会在缺少某些USB接口或无线手机充电功能的情况下交付。


Siddiqui可以在提车后两周内预约车辆升级。他说:“我可以接受这一点。”

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第3107内容,欢迎关注。

推荐阅读


台积电披露未来的研发计划

中国大芯片浪潮

美国芯片制造行业的黄昏


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码 ,回复下方关键词,阅读更多

晶圆|集成电路|设备 |汽车芯片|存储|台积电|AI|封装

回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!

责任编辑:Sophie
半导体行业观察
摩尔芯闻

热门评论