论英特尔Nervana的倒掉
果不其然,Nervana终于被Intel彻底关掉了 [1] ,虽早已在预料之中,但也不胜唏嘘。 我见过Nervana未曾发布的产品,在当年诸多AI芯片逐鹿之初也算是一条好汉。 然而,Nervana的倒掉,除了技术原因之外,团队的组成和Intel组织架构也是重要的内在因素。 “起个大早,赶个晚集”,算是对Intel之前4年AI芯片战略的一个总结,我以为。
我不看好Nervana很多人都知道,也在2019年中预言了Intel收购Habana的大致剧本,在此分享一下对这个未来或许会成为AI芯片历史上重要事件的思考,作为case study供大家参考。 以下仅为作者个人观点,不代表就职公司。
徐凌杰
回拨到2016年中,当年北美最有名的AI“芯片”初创公司就数Nervana了。 我们不妨来看一下Nervana被Intel收购之前的重要时间线:
-
2014年初成立,三个创始人,CEO Naveen Rao、CTO Amir Khosrowshahi(姓氏是否很熟悉?没错,他和Uber现任CEO是堂兄弟,均来自伊朗的望族)和算法负责人Arjun Bansal
-
2016年2月,发布基于Neon框架,宣称在GPU上可以达到10倍以上的深度学习训练速度
-
2016年6月,宣布开发名为Nervana Engine的AI芯片
-
2016年8月,被Intel已4.08亿美元收购,被收购时员工48人
非常巧的是,当时的48名员工有3个是我之前的同事或同学(其中包括第48名员工,入职即被收购的那位),我当时就饶有兴趣地在他们网站上把所有人的背景都过了一遍,看完之后惊奇地发现这
不是一家传统意义上的芯片公司
!
-
首先是创始团队,三个人均是2010前后毕业的神经科学博士, 没有任何硬件背景 ;48人中还有不少来自神经生物学界的
-
负责硬件的Carey Kloss是DV(芯片验证)出身,主架构师Andrew Yang(不是那个每人发1000刀helicopter money的总统候选人)背景是网络通信芯片的ASIC design
-
而其他绝大部分人,包括我认识的3个,都是软件工程师背景
皮衣教主一直强调NVIDIA是一家软件公司,这一点都没错,芯片产品最终拼的是软硬件联调的服务能力。但在 芯片公司草创之初,没有有经验的、来自计算芯片背景的主架构师,没有成型的硬件团队,也是绝对不可接受的 。这也为Nervana第一代Lake Crest芯片的失败埋下了伏笔。按照正常的逻辑就是,Nervana原本的主营业务是神经网络算法和框架,而芯片硬件项目只是一个pet project,乘着2016年5月Google公开发布TPU一代的东风,立马赶鸭子上架,而Intel正好缺乏合适的AI芯片产品和GPU叫板,一拍即合,卖了个不错的价格。
可惜,当年nervanasys.com的网站已经没有办法考古,这几天点击打开之后映入眼帘的是巨大的Intel+Habana的logo。
相比之下,在初创团队组成上,不得不说,Habana是非常值得称道的:
-
CEO David Dahan是DSP设计背景,在CEVA干过好多年,之前联合创立了Prime Sense成功卖给了Apple
-
VP R&D Ran Halutz,是Dahan在Prime Sense和CEVA并肩作战多年的队友,负责芯片硬件设计
-
CTO Shlomo Raikin,原Mellanox的首席架构师,之前在Intel做过10年的CPU架构设计
-
Chief Business Officer,Eitan Medina,通信/芯片行业的老兵,Galileo/Marvell/Cavium的CTO和VP
以上都是在Habana网页和LinkedIn上公开的信息。然而,鲜为人知的是Habana幕后的大boss,Avigdor Willenz,以色列芯片界教父般的传奇人物,90年代中期就创立了Galileo,如今在AWS撑起半边天的Annapurna Labs也同样出自他的手笔。是他,看到了AI芯片市场的巨大潜力, 通过强大的资源整合能力,把以上的牛人们聚在了一起,并有策略有步骤地逐步推行产品计划 。
精心撰写的剧本和“脚踩西瓜皮,滑到哪里算哪里”的创业,在人员布局上就可见一斑。
芯片产品,最终是要回归到技术的。Nervana被Intel收购之后,马上根据Intel的习惯把产品线重命名成Crest,而第一代芯片Lake Crest因为之前的匆忙已经是箭在弦上不得不发了。根据wikichip [2] 和其他公开信息,我们来看一下它的芯片设计。
Lake Crest架构图
平心而论,Lake Crest的架构还是非常工整的,有着当时业界领先的HBM2配置和带宽,芯片间12个ICL互连也是比较超前的意识。55T 16bit FLOPS的算力如果能在2017年初正常发布也是非常有竞争力的产品,但是,因为前面在团队部分描述的原因,Lake Crest成为了一个彻头彻尾失败的产品:
-
首先,因为项目启动是在被收购之前,受于资金限制,Nervana只能找eSilicon合作,而且只能做28nm的产品(NVIDIA 2016年初发布的P100已经是16nm了)。即使被收购之后,Intel在这代产品上也帮不上太多忙。而最终的结果是,由于芯片执行上的问题,导致最后功耗巨大,400W的产品无法在已经被NVIDIA很好定义的300W PCIE的主流机型上做适配。
-
其次,其实也是架构里面最关键的,也是Nervana当时最引以为豪的发明,Flexpoint最终被证明是个大坑。这点我在去年AI Hardware Summit的Keynote上提过,想要了解技术细节的可以看Nervana团队在2017年NIPS大会的paper [3] 。Flexpoint在技术上是个看似聪明的拍脑瓜的方案,撇开模型在其之上很难收敛的事实,光是其tensor之间共享 exponent需要反复来回和host通信同步就是一个很大的overhead,而团队欠缺计算芯片、特别是通用处理器的架构背景,软件算法想当然,我认识是造成这个局面的很大原因之一。岔开一句,“ 软件定义硬件 “是个非常时髦的词,而Groq 最近公开的144路VLIW的架构也足够行家们贻笑大方了 。
Flexpoint示意图
-
有人可能要问,Nervana的neon框架后来哪去了?有人在Reddit [4] 上的回复非常到位,“Development speed is generally more critical than computational speed in research”,“I trust TensorFlow/Torch more than Neon, e4ven if Neon is faster”。没有抓住训练用户的痛点是其一,退一步来说,芯片公司没有长出基于芯片的核心能力,框架做得再好,也无法仅凭此就成为未来竞争的护城河。
其实Lake Crest的失败还不是致命的,以Intel的资源和能力,在后一代Spring Crest尽快修正错误未为晚矣。然而,期望的改变并没有发生:
-
Spring Crest依然沿用了错误的Flexpoint设计,直到内部仿真明确了实在不行之后,才决定全面转向BF16(原话是,”Flexpoint16三个月converge不了一个网络,而BF16一天就可以converge三个”)。这也为什么在2018年中Intel的AI大会上 [5] , 宣布了Spring Crest会有两个迭代,第一个只做硬件适配仍然是Flexpoint,而第二个tape out会使用和Google TPU一样的BF16。
-
不过,非常遗憾的 是,Nervana团队没有抓住两次tape out的机会,在中间再加强算力,B stepping 2019年底119T BF16的算力和NVIDIA 2017年中发布的V100相比,毫无优势可言,更何况市场都在等待2020年3月更强更新的GPU产品。 刻舟求剑,用在这里再恰当不过 。
错误的技术方案和产品路线,贻误了Nervana和Intel战机。而反观Habana,战术和打法就清晰很多了:
-
首先是埋头苦干,2016年底成立后一直保持stealth mode,直到2018年9月AI Hardware Summit发布第一代inference芯片Goya(芯片实体,而非纸面发布), 以单卡15000 images/s的ResNet50性能一鸣惊人
-
同时宣布training芯片Gaudi将于半年之后面世,100个人不到的小团队的战斗力吸引了全世界的目光, Intel Capital迅速投资
-
2019年3月份,Facebook在OCP大会上发布OAM模块标准之后,快速反应、迅速跟进,业界首个支持OAM标准,并第一时间在2019年8月在Hotchips大会现场演示
再来看Habana的架构, 无论是Goya还是Gaudi,其实都没有任何fancy之处,两颗芯片遵循了架构最大程度复用的原则,把一些普通的元素执行到了接近极致 :
-
版图上所谓的TPC,其实就是DSP,这是Habana团队的强项
-
画得很小的GEMM矩阵加速但也其实是面积的主体,各家AI 芯片公司都有
-
Local和Shared memory代表了大量的片上SRAM,其他AI芯片公司也都有
-
Gaudi芯片集成NIC,概念上属于Habana首创(NVIDIA后来也收购了Mellanox),但技术上并无特殊之处,片间互连带宽远低于NVIDIA的NVSwitch方案,但用比较低的成本实现all to all的connection也是充分发挥了其CTO来自于Mellanox的天然优势
Habana的芯片架构虽然简单,但胜在执行,把团队每个人的优势充分发挥,快速迭代 ,和Nervana相比绝对是技术和产品上的一股清流。
Habana Goya示意图
Habana Gaudi示意图
有人说,Intel是把一手“好牌”打烂了,但我认为不然,Nervana从来就不是一手好牌,但Intel在组织架构上没有很好地进行保障也导致了后来失败的局面。
Intel内部团队非常多也非常复杂,其中最大最重要的部门即为DCG (Data Center Group),而Nervana被收购之后即作为单独的AIPG部门一度直接汇报给CEO,然后马上又被挂在了DCG下面。 然而,自2017年以来Intel内部的调整也一直没有消停过:
-
2017年5月,主持收购Nervana的DCG部门负责人Diane Bryant离职,后加入Google负责谷歌云
-
2017年11月,Raja Koduri从AMD加盟Intel,主持GPU部门,并在2018年宣布会进军discrete GPU市场和NVIDIA/AMD正面竞争
-
2018年1月,Intel CEO Brian Krzanich因为私生活问题辞职
-
2018年6月,CFO Bob Swan出任临时CEO,2019年1月转正
从上述的时间线可以看到,Nervana自从被收购之后,除了在PR品牌上被Intel大肆宣传之外,在内部并没有被完全接受,AIPG的位置也一直在DCG内部飘忽不定,同时还面对Intel的GPU部门在产品定位上的全面竞争。
其实,从2018年以来,换掉Naveen Rao的声音在Intel内外已经有不少了, 但Intel迟迟没有调整到位,也显示了其作为大厂在组织架构上“挤牙膏”的慢节奏作风
-
2017年中,Intel以色列团队的负责人Gadi Singer调入AIPG,但只是让他负责inference产品Hill (打Nervana的商标,但全是Intel原生技术),直到这周Naveen Rao离职才被扶正
-
2018年中,Movidius(2016年被Intel收购)的前CEO Remi El-Ouazzane调入AIPG,但是只是让他负责operation,没有实际的架构和产品路线的管理权
-
也就是说,从Crest产品线颓势尽显开始,Naveen Rao居然在AIPG的一号位上坐了两年多,看起来不可思议,但 其实也是公司内部不断互相寻找平衡的大公司病的典型特征
最后来讲一下我是如何大胆判断Intel会弃子Nervana,收购Habana和其中timing的:
-
从财报来看,新任CEO上任之初通常会用big bath的手法把坏消息出尽,而通常CFO出身的CEO对砍人绝对不会手软,只是时间问题。 Bob Swan 2019年1月正式接任CEO,当月的财报抖了很多包袱,盘后跌了7% [6] ; 同年4月的财报 [7] ,他又表态“taking a more cautious view of the year”,然后盘后又跌了6%; 而再过了几个月,通过诸如把基带生意关掉等一系列手段,把股价搞上去了,那就是时候来梳理最大的DCG部门了。
Intel一年股价走势图
-
作为Intel最赚钱的DCG部门,AI相关的营收一直是掌门人Navin Shenoy的痛,算上CPU,AI based的芯片营收才勉强超过NVIDIA,而 AI硬件产业在未来几年是几百亿美元的大市场 ,大有可为却没有很好的抓手:之前过于担心对核心CPU市场的cannibalization没有大力发展inference专用芯片,而Nervana又无法扛起训练的大旗,确实头痛。北美big4,AWS只用最成熟的产品(训练用GPU,推理开始推自研的inferentia),Google自然有了TPU,微软钟情于FPGA,而Facebook是唯一的空白。Facebook作为非云厂商的hyperscaler,有一个特点就是喜欢逗人玩,没事通过OCP发布行业标准来让标准模块商品化达到降低成本的目的。刚才提到的OAM就是训练加速卡的专用模块,2019年只有Intel的Nervana Spring Crest和Habana的Gaudi具备了OAM的产品化能力,看看自己口袋里的Nervana不一定争气,为了锁定Big4中的最后一家,20亿美金收购Habana我认为还是值得的。所以如果下周OCP大会,Intel和Facebook联合发布产品,用足这20亿的广告费,是一点都不奇怪的。
2019年9月 OCP阿姆斯特丹大会
-
2019年6月,Intel的GPU团队发布One API编程模型,其重点自然在One上面,号称全Intel通用,而其对外的市场宣传也把AI训练作为其Ponte Vecchio芯片的主打,大有舍我其谁之势。 外部没了市场还好,内部没了面子怎么行,DCG肯定坐不住。
综上,砍掉Nervana,收购Habana,势在必行。 而Nervana团队内部看得清形势的人,在2019下半年也陆续出走了。
当Habana在2019年Hotchips现场demo样机的时候,NVIDIA的Tesla线产品经理问我最看好哪家AI芯片公司,我答“Habana”; 又问我如何解,我再答“被Intel收购“; 我俩相视一笑。 当然,这是玩笑,我还是真心希望能看到市场上出现能和NVIDIA正面PK的产品,希望Habana不要重蹈之前那些被Intel收购公司的覆辙。
Habana不是一个完美的例子,以色列团队传统也是硬件强,软件偏弱,但人家毕竟在没有把产品卖出去的情况下先把自己卖了,从思路到执行力还是值得好好研究的。
Nervana的倒掉,在我看来,标志着AI芯片的竞争即将从从春秋进入战国阶段。 虽然皮衣教主还有着绝对的统治力,但无可否认越来越多资金雄厚的玩家会更加重视这个市场,面对几百亿美元的大市场,资金、技术、产品能力还有眼光缺一不可。 根据上述Habana和Nervana的对比,一个成功的AI芯片需要做到的点:
-
完整的团队 : 功力深厚的(软硬件)架构师、经验丰富的执行团队、能精准把握市场趋势的产品团队
-
前瞻的眼光 : 产品定义要有足够的高度和包容度,保持对技术趋势的敏锐度,Habana的一鸣惊人和第一时间拥抱OAM就是最好的例证
-
完美的执行 : 速度和迭代能力也将会是核心竞争力,特别是AI算法日新月异的今天,软件和硬件周期不匹配日益突出,我认为这将是中国公司短期内竞争力所在
-
现实的兼容 : 与现有产品实现平滑过渡(无论是软件还是数据中心基础设施),作为硬件厂商不要幻想一朝一夕就能改变顶层用户习惯(Flexpoint的反例),同时保留通用性适应未来的发展和建立自己的生态
-
贴身的服务 : 软件能力(其实是软硬件联调能力)决定芯片的成败已经成为一个共识,而能够本地化服务于客户,提供优秀解决方案的服务能力也会是芯片技术之外的分水岭
-
充裕的资金 : 我在AI Hardware Summit上曾把AI芯片的竞争比喻成长征,芯片的长周期和快速迭代之间的矛盾就决定了需要更大资金的投入,这也是未来竞争力的关键所在
与各位共勉!
AI芯片当前的落地主要方向还是数据中心,而Google又是这个领域的技术先驱。 前几个月花了点时间把Google经典的《The Datatcenter as a Computer》第三版翻译成了中文,做一下知识的搬运工,希望对各位有帮助!
参考
[1] https://www.bizjournals.com/sanjose/news/2020/02/26/intel-ai-head-steps-down-weeks-after-chipmakers.html
[2] https://en.wikichip.org/wiki/nervana/microarchitectures/lake_crest
[ 3 ] https://papers.nips.cc/paper/6771-flexpoint-an-adaptive-numerical-format-for-efficient-training-of-deep-neural-networks.pdf
[ 4 ] https://www.reddit.com/r/MachineLearning/comments/4h5u0h/why_dont_many_people_use_nervana_neon/
[ 5 ] https://www.hpcwire.com/2018/05/24/intel-pledges-first-commercial-nervana-product-spring-crest-in-2019/
[ 6 ] https://news.alphastreet.com/intel-corp-intc-q4-2018-earnings-report/
[ 7 ] https://www.businessinsider.com/intel-earnings-q1-revenue-profit-2019
题图来自网络,版权归原作者所有
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第2236期内容,欢迎关注。
推荐阅读
半导体行业观察
『 半导体第一垂直媒体 』
实时 专业 原创 深度
识别二维码 ,回复下方关键词,阅读更多
“芯”系疫情 |ISSCC 2020 |日韩芯片 |华为 | 存储 | 氮化镓|高通|康佳
回复
投稿
,看《如何成为“半导体行业观察”的一员 》
回复 搜索 ,还能轻松找到其他你感兴趣的文章!
- 半导体行业观察
- 摩尔芯闻