关于AI芯片,2018年应关注什么?
来源:本文授权转载自AI前线,作者唐杉 ,谢谢。
2017年,AI芯片是半导体产业的亮点,而它受到的关注又远远超出半导体的圈子。这一年,从科技巨头到初创公司,新老角色轮番登场,为我们上演了精彩好戏。若干年后,当我们再回头来看,一定可以把2017年作为 AI芯片元年 。
Google vs Nvidia • 巨头间的“错位战争 ”
四月初, Google 公布了一篇即将在 ISCA2017 上发表的论文: “In-DatacenterPerformance Analysis of a Tensor Processing Unit” 。可以说正是这件“小事”,揭开了一部年度大戏的序幕,而它产生的深远影响甚至可能会持续到很多年之后。其实,在 2016 年 6 月的时候 Google 就透露了自己研发了一款在云端使用的专用 AI 芯片, TPU ( Tensor Processing Unit )。 Google 做 AI 芯片当然是吸引眼球的新闻,但苦于一直没有公布细节,大家也只能猜测和等待。因此,这篇普通的学术论文,得到了媒体的极大关注。我也在第一时间写了一篇评论文章: “ Google TPU 揭秘 ” ,也是我的公众号阅读量最大的文章之一。对 TPU 高度关注的当然不只我们这些吃瓜群众,还有 AI 芯片领域绝对的统治者 Nvidia 。后面就发生了黄教主和 Google 间关于 TPU 的 Benchmark 结果是否合理的口水战。而早在 2016 年 Google 透露 TPU 的时候, Nvidia 就多次表示它对 GPU 在 AI 运算上的统治地位没有什么威胁。
5 月 11 日, Nvidia GTC2017 大会,黄教主在 Keynote 上抛出了最新的 GPU Volta ( GV100 ) 。 Nvidia 股票应声大涨,媒体也是大肆报道。 AI 芯片的焦点似乎又回到了 Nvidia 这一边。
除了公布了重量级的 Volta , GTC 上还有一个 “ 小事件 ” , Nvidia 宣布 开源它的 DeepLearning Accelerator ( DLA ) , 9 月正式公开。这个发布,在黄教主的 Keynote 中是一句话带过,但在业界引起的震动却一点也不小。 “Nvidia 为什么要搞开源?会开源什么东西?这个开源会不会影响众多初创公司的前景? ” 对这些问题的讨论一直延续到 NVDLA 真正开源之后。
没过多久, 5 月 17 日,在 Google I/O 大会上, Google 公布了第二代 TPU ,用媒体的话说 “…stoleNvidia’s recent Volta GPU thunder…” 。虽然 TPU2 的细节公布的并不多,但指标确实看起来很不错,而且具有非常好的可扩展性。唯一的遗憾就是它并不对外销售,只能以 TPU Cloud 的方式供大家使用。
9
月下旬,
Jeff Dean
这位
Google
的软件大神参加了
HotChip
这个芯片界的重要会议
,并在
Keynote “Recent Advances in ArtificialIntelligence via Machine Learning and the Implications for Computer SystemDesign”
也亲自介绍了
TPU
和
TPU2
的情况,把它们作为新的计算生态中重要的一环。
9 月底, NVDLA 在承诺的最后期限之前开源了 NVDLA 的部分硬件代码,同时公布了未来开源更多硬件和软件的路线图。这之后,大家对 NVDLA 也做了各种分析和讨论,试图把它玩起来。从目前来看, NVDLA 的开源好像并没有影响众多初创公司的融资。这个话题我们后面再说。至于 Nvidia 开源 DLA 的原因,官方的说法是让更多人可以更容易的实现 Inference ,促进 AI 的推广,特别是在众多嵌入式设备上的应用。但从整个开源的过程来看,这个开源的决定似乎是比较仓促的。 DLA 来自 Nvidia 自动驾驶 SoC 中的一个 模块 ,最初并不是以开源 IP 为目的而设计的。而且 9 月的开源也只公开了一部分硬件代码和相应的验证环境,离真正能用起来也还是有较大差距。我们不好判断这个开源的决定是否和 Google TPU (在 Inference 上有比较大的优势)的强势亮相有关系。但基本的推测是,在 Deep Learning 中 Nvidia 的核心利益应该在于 Training (目前 GPU 还是 training 的最好平台)。让 Inference 门槛更低,渗透到更多应用,特别是 Edge 端,从而进一步促进 Training 的需求,应该是符合它的最大利益的。而且 NVDLA 的软件环境还是使用 Nvidia 的 CUDA/TensorRT ,还是由 Nvidia 掌控的。
这场从一篇论文开始,几乎贯穿了 2017 年全年的 Google 和 Nvidia 的明争暗斗,对业界的影响可能要远远超过这两家公司本身。我之所以把它称为 “ 错位 ” 的战争,是因为它发生在 Google 这样的传统的软件巨头和 Nvidia 这样的芯片巨头之间。如果换成 Intel vs Nvidia ,似乎是再正常不过的。 Google 的参战,也许是开启了新的时代。我们可以看到,不仅是 TPU , Google 在 10 月又公布了他们在 “GooglePixel 2” 手机中使用的定制 SoC IPU ( ImageProcessing Unit )。和 Apple 越来越多的自己定制芯片一样, Google 这样的科技巨头同样有应用(明确知道自己要什么),技术(对相关技术的多年积累),资源(不缺钱,不缺人)上的优势,定制自己的硬件,甚至芯片会变得常态化。同时我们也看到, Google TPU 的示范效应已经显现,更多的科技巨头加入 AI 加速硬件的竞争。 Tesla 宣布自己定制自动驾驶芯片; Amazon , Microsoft ,以及国内的 BAT ,华为都在 Cloud 中提供专门的 FPGA 加速的支持 ;据称 Big Five 中还有在自己开发芯片的; BAT 也都在组建芯片设计的团队,等等。虽然大家具体的架构和实现方式不同,但都反映出对 AI 专用硬件的极大兴趣。相信未来这一趋势会越来越明显。
同时,传统的芯片巨头当然不会坐视这个巨大的市场被
Nvidia
主宰或者被
Google
们瓜分。
Intel
连续收购了
Nervana
(云),
Movidius
(端),
Mobileye
(自动驾驶),
Altera
(
FPGA
),又把
AMD
的
RajaKudori
(
GPU
)招至帐下,甚至还搞了
Loihi(nueromorphic)
,
可以说拿了一手好牌;虽然动作没有大家想象的那么快,但后面的发力还是值得期待的。
AMD
也在努力追赶,毕竟他们的
CPU+GPU
有自己绝活,而整个公司也已经逐渐走出了低谷。而且,不管
Tesla
和
AMD
合作自动驾驶芯片的消息到底是真是假,芯片公司这种输出芯片设计能力的模式也是一种不错(或者无奈)的选择。
“
以
Machine Learning
为代表的新型计算模式将引领未来芯片的发展方向
”
,这一观点基本已经是大家的一个共识。越来越多的玩家会关注能够支持新型计算的芯片,其中很多可能之前完全不在半导体这个圈子,也完全不了解芯片是怎么回事。
2017
年我们不时能看到一些对比
CPU
,
GPU
,
FPGA
和
ASIC
架构的
科普文章,甚至有
10W+
的阅读量,不难看出大家的热情。
初创公司 • 长长的list
2017 的 AI 芯片大戏中,主角不仅是巨头,初创公司也都粉墨登场,戏份一点儿都不逊色。更重要的,在初创公司的 “ 表演 ” 中,中国公司不仅毫不怯场,而且非常出彩。我从 8 月份开始在 github 上维护一个 AI 芯片的列表,既包括大公司的产品,又包括初创公司的情况。到 12 月,这个列表中的信息越来越多,世界范围内的初创公司有 30 多家。而且这个列表还只包含了公开信息,还有很多公司处在 stealth 状态并没有收录。我也听到一个说法,在 AI 芯片领域的初创公司可能超过了 100 家,在 TSMC 排队投片也有 30 家。
不管在什么领域,初创公司都会面临很多风险和不确定性,也可能在成长过程中不断调整和变化。
AI
芯片当然也不例外。我们看到,在这一年中,很多公司在不断成长,逐渐明确自己的方向和定位,走的越来越坚实。另一方面,从今年初创公司融资的情况来看,这个领域(也包括更大范围的
AI
概念)也明显出现一些泡沫。有些公司,在没有任何实际东西的情况下,就可以实现
“PPT
融资
”
或者
“Paper
融资
”
。有些公司,重心放在了
PR
上面,功夫都是做给
VC
看的,人称
“2VC”
公司。面对
AI
这个趋势性机会,有泡沫当然也是正常现象,只是希望这些泡沫不要伤害整个市场的发展。
抛开各种烟雾和泡沫,我们逐渐在这个领域初创公司也看到一些 “ 龙头企业 ” 。比如国内的寒武纪、地平线、深鉴科技和比特大陆,都在 2017 年发布了自己的产品;美国的 Cerebras 、 Wave Computing 、 Graphcore 和 Groq (前 GoogleTPU 主要设计者创立),或有雄厚的实力,或有自己特色的技术和比较清晰的产品。在 2017 年,国内也出现一些依托应用开发芯片的 AI 初创公司,这些公司大多以应用牵头研发芯片。我也预期在 2018 年会看到更多这样的情况。当然,很多初创公司并没有公开自己的信息,不排除正在憋大招的可能性。
熟悉半导体产业的朋友可能比较清楚,半导体领域初创公司获得 VC 投资在之前是非常困难的。主要原因是这个产业风险大,门槛高,周期长。但 2017 年, AI 芯片的初创企业却受到了资金追捧。我们可以看看今年的一些公开的融资数据。寒武纪: 1 亿美金(估值近 10 亿美金);深鉴科技: 4000 万美金;地平线:近亿美金;; Cerabras : 6000 万美金(估值 8.6 亿美金); Graphcore : 5000 万美金。在前面我也提到,当 Nvidia 宣布要开源 DLA 的时候,大家感觉会对初创公司的融资和估值有一定影响。但从结果来看,这种情况并没有出现。在 9 月之后,我们又看到很多初创公司成功融资。而投资者的热情似乎一点都没有减弱,只要有一个新的公司出现,立刻会有很多投资机构蜂拥而至。
为什么传统上不愿意碰半导体产业的投资者现在却对 AI 芯片趋之若鹜呢?这是一个有趣的问题。具体的原因可能有很多方面,整个 AI 领域的投资热潮应该是一个主要原因。如果观察这些投资背后的资本,可以看到很多本身就是 AI 领域很活跃的投资者,甚至本身就是把 AI 作为未来重点的科技巨头,比如 BAT 。而传统的投资半导体领域的资金倒是比较谨慎一些。从这个角度来说,这些没有太多半导体背景的资本大量进入芯片领域,是会给大家带来新的机会和视野,还是带来风险和不确定性,还是有待观察的。另外,现在所说的 AI 芯片,一般是指 Deep Learning 加速芯片 ,相对来说,关键算法简单清晰,优化目标非常明确,很多技术(比如矩阵运算的硬件加速)已有多年的研究基础。而对这种硬件加速器的验证,测试和调试也相对容易。如果不进行精细的优化,硬件部分可以由一个较小团队在较短时间完成。这些技术上的特征比较适合初创公司快速尝试。当然,做一个加速芯片(或者 IP )的硬件只是第一步。要真正做出能被市场接受的产品,则需要很多扎实的工作,产品定义,硬件效能,软件工具,系统测试,现场支持等等,一个短板也不能有。虽然大家都很关心投片的时间,但样片出来之后,脏活累活还多着呢。
2018 • 关注什么
对于 2018 ,我还是非常期待的。作为一名多年从事芯片架构设计多年的工程师,我首先期待看到一些技术上的创新。 2017 年我写了不少分析 AI 芯片相关技术的文章,到年末几乎有点审美疲劳了(相信读者也是一样),似乎新鲜东西越来越少。在 2017 年底,有一个叫 Vathys 的初创公司 ,一下子开了好几个脑洞,全定制的 Asynchronous Logic ,等效的时钟可以到 12GHz ( 28nm 工艺); High-densitySRAM ( 1T-SRAM ),片上存储容量可以达到 1.5GB ( 28nm ); Wireless 3D Stacking , 10,000GBit/S @ ~8 fJ/bit 。这几项技术要么是目前还停留在学术研究阶段,要么是曾经昙花一现。一个初创公司一下就祭出这几个大招,又是这么高的指标,真有可能实现吗?所以,当 Vathys 的老板发邮件说应该把他们公司加到我做的 AI 芯片 List 里的时候,我开始是婉拒的。不过,换一个角度来看,即使是他们完全在忽悠,也算是击中了 Deep Learning 处理器的痛点。而且这几项技术目前也都有人在研究,在 AI 的热潮和巨大的资金支持下也许真能搞出来也说不定。所以,我还是希望看到他们或者是其它团队能够在这几项技术上取得突破,让我们真正激动一把。说到技术的突破,我们未来(可能要比 2018 年更远)还可以期待看到在存储技术上的突破,以及由新的存储技术带动的架构上的创新,包括 Neuromorphic 这条技术路线。
接下来,当然是巨头们的下一步动作。 Google 的 TPU 是否会卖给自己之外的用户,直接和 Nvidia 展开竞争?目前 ONNX阵营已经形成和Google的对峙 ,Google作为生态最完整的厂商,推广TPU对巩固自己的领先地位很有意义。 Big Five 和 BAT 哪个会学习 Google 榜样直接自研芯片?阿里达摩院的芯片研究会不会从 AI 开始? Intel 能不能如大家所期待的全面爆发? Nvidia 会如何应对来自各方的挑战,是否会做更专用的加速芯片,而不是仅仅在 GPU 中加个 Tensor Core ?高通什么时候在手机芯片中加上硬件加速器?ARM下一步会怎么走,会不会横扫嵌入端?。。。随便想想就会有很多值得期待的看点。最近我们也看到,为了对抗 Nvidia , AMD 和 Intel 竟然很罕见的宣布合作。而 IBM 在 Power9 上和 Nvidia 深度合作。 2018 年也许我们还能看到业界巨头间更多的合纵连横。
初创公司的命运也是 2018 年最大的看点。我在之前的一篇文章中说过 “ 对于 AI 芯片的 startup 来说, 2018 年就算不是毕业大考,也至少到了学期末考试了 …” 。 2018 年,大部分初创公司都将会交出第一次测验的结果(芯片),也会开始小批量的试用。相信到时会有比较公平的 Benchmarking 结果出现, “ 理论上 ” 的指标会被 实际的 “ 跑分 ” 结果 取代。虽然对于初创公司来说,犯错误是可以容忍的,第一代芯片也不能完全代表公司未来的前景。但是,做芯片需要巨大资源的持续支持,这个阶段掉队可能非常危险。当然,第一次的淘汰对于真正优秀的企业也是最好的机会。我非常期待看到能够在考试中脱颖而出,并跨上新的台阶(或者直接毕业)的同学;或者,会有我们不认识的面孔,突然惊艳出场。另外,2018年,在Edge端会有更多的传统芯片厂商加入竞争,除了三星,高通,MTK,展讯等芯片厂商,还有传统的IP厂商;而在嵌入端IP上有绝对优势的ARM应该也会有更大的动作,这些都可能会对初创公司产生重大影响。
最后,是变局的可能。从整体上来讲, AI 整体上在 2018 年会怎么发展是一个大家都非常关注的问题。继续高速增长,还是平稳发展,又或者会遇到问题高开低走?不管是哪种情况, AI 芯片必然会受到大势的影响。比较特殊的是,芯片研发的周期大约在 9 到 18 个月左右,这比软件应用的开发和更新周期要长的多。再加上一些滞后效应,芯片的发展很难和算法和应用的发展节奏同步。芯片开发中一个比较可怕的问题就是未来的不确定性。相对来说,一个可预期的平稳增长的环境是最有利于芯片研发的,可以让芯片设计者能够更好的规划产品和协调资源。另一种变局情况是,算法层面发生巨大的变化,也就是技术上的不确定性。这几年最成功的 AI 算法就是基于神经网络的深度学习。这正是目前 AI 芯片在需求上的基础,也决定了现在大部分 AI 芯片都是以加速这一类算法为目标的。如果基本算法需求发生变化,会对 AI 芯片的设计产生很大的影响。比如,目前已经有一定应用基础的低精度网络,也就是在 inference 中使用非常低的精度,甚至直接使用二值网络。如果这种 Inference 得到广泛应用,现在的芯片架构则可能得要重新考虑。再比如,如果 Hinton 大神的 capsule networks 得到实用,也可能会需要新的芯片架构来支持。毕竟 AI 领域现在发展很快,所以大家也都必须要时刻盯着应用和算法层面最新的进展。我们也要随时问自己下面的问题(来自Jeff Dean在NIPS2017的演讲)。
今天是《半导体行业观察》为您分享的第1454期内容,欢迎关注。
R
eading
推荐阅读(点击文章标题,直接阅读)
关注微信公众号 半导体行业观察 ,后台回复关键词获取更多内容
回复 科普 ,看更多半导体行业科普类的文章
回复 DRAM ,看更多DRAM的文章
回复 60年 ,看《致中国半导体工作者的风雨60年》
回复 英特尔 ,看更多与英特尔公司相关的文章
回复 全面屏 ,看更多全面屏相关的文章
回复 挣钱 ,看《为什么你的芯片不挣钱?》
回复 FPGA ,看更多与FPGA相关的文章
回复 功率 ,看更多与功率半导体相关的文章
回复 展会 ,看《2017最新半导体展会会议日历》
回复 投稿 ,看《如何成为“半导体行业观察”的一员 》
回复 搜索 ,还能轻松找到其他你感兴趣的文章!
相关文章
- 半导体行业观察
- 摩尔芯闻
最新新闻
热门文章 本日 七天 本月
- 1 复杂SoC芯片设计中有哪些挑战?
- 2 进迭时空完成A+轮数亿元融资 加速RISC-V AI CPU产品迭代
- 3 探索智慧实践,洞见AI未来!星宸科技2024开发者大会暨产品发布会成功举办
- 4 重磅发布:日观芯设IC设计全流程管理软件RigorFlow 2.0