[原创] Graphcore全新IPU产品系列发布:600亿晶体管,台积电3D WoW封装

2022-03-05 14:00:21 来源: 半导体行业观察

在推出第二代IPU一年半以后,Graphcore终于又推出了他们全新的IPU系统产品——Bow系列。
据Graphcore大中华区总裁兼全球首席营收官卢涛介绍,这是一颗同样使用台积电7nm工艺打造的芯片,其处理器内核的个数、独立线程的个数以及外部的一些接口都跟公司上一代的MK2 IPU处理器完全相同。然而即使如此,Graphcore仍然在Bow IPU上集成了高于上一代产品的600亿个晶体管,并同步提升了其在性能和功耗上面的表现。
“Bow IPU具有350 TeraFLOPS的人工智能计算的性能,比上一代的产品250 TeraFLOPS提高了40%,每瓦的性能也相对上一代产品提升了16%。在片内存储保持不变的前提下,新芯片的吞吐量也从上一代的47.5TB/s提高到65TB/s。”卢涛告诉记者。
之所以能在工艺保持不变的前提下,达成这样的成就。按照卢涛所说,这主要得益于公司在这个芯片设计上采用了台积电的3D WoW(3D Wafer-on-Wafer)封装技术。

全球首个3D WoW处理器


熟悉芯片行业的读者应该了解,在过去的几十年里,产业提供芯片性能几乎都是采用一个简单粗暴的方法,那就是通过晶体管微缩,在同样的尺寸内集成更多的晶体管。但是,随着工艺制程推进到10nm以下,受限于材料的物理属性,这套运行了几十年的约定俗成规范似乎已经失效,于是行业便将目光投向了封装,以求提升芯片性能的新方法。
Graphcore在新芯片上采用的台积电3D WoW就是在这个背景下产生的。


如上图所示,这是一种用于硅晶圆的3D堆叠形式。新技术可以使用硅通孔(TSV)来连接两个硅片上的芯片,其作用类似于当今的3D NAND技术。但由于其芯片之间的距离小,台积电WoW技术可以直接连接两个裸片,让数据传输时间最短,从而制造出具有高水平性能和更小的整体占地面积的硅片。
而Graphcore的Bow IPU作为全球首款基于3D WoW技术的处理器。由上述的数据看来,也的确交出了一份不错的成绩单。

在产品介绍过程中,卢涛也详细介绍这款芯片的设计。如下图所示,最下方是一个IPU的Die,包含逻辑的计算和SRAM电路,主要用作处理;上方则是另外一个Die,主要是为供电、节能等方面的功能提供帮助。“从某种意义上看,这颗由2颗Die堆叠而成的芯片是Graphcore跟台积电一起联合创新的结果。”卢涛强调。

卢涛进一步指出,公司的上一代产品MK2IPU已经有了594亿个晶体管,面积大概为823平方毫米,这可能已经是7纳米的单个Die能生产的最精密芯片了。如果想再提升,不换工艺,就只能是换封装。
“在经过深入评估之后,Graphcore认为,选择更先进的工艺并不能像以前那样获得大幅度的性能提升。而从成本收益角度看,也不划算。于是我们选择了3D Wafer-on-Wafer作为芯片性能提升的新方法。正是得益于这个决定,使得我们新芯片即使面积稍有上升,但成本与上一代比较相近,最终让我们可以以不变的价格交付新芯片。”卢涛表示。
Graphcore中国工程副总裁、AI算法科学家金琛则补充说道:“性能上的提升基本上都是归因于Wafer-on-Wafer技术以及新的DTC晶圆带来的电源管理上的提升,这些都直接影响到芯片的性能,但是芯片的计算单元没有改变。”
基于这样一个新芯片,Graphcore又打造了一系列性能优越的系统。

旧代码直接复用的新系统


“基于我们新芯片打造的系统还有一个优势,那就是开发者可以直接把基于上一代芯片开发的代码直接应用在新系统上,不需要任何的修改。”卢涛接着告诉记者。
从他的介绍我们得知,Graphcore基于Bow IPU打造了Bow Pod 16 、Bow Pod 32 、Bow Pod 64 、Bow Pod 256 ,以及Bow Pod 1024 等不同配置的系统。值得一提的是,除Bow Pod 1024 是早期访问版本以外,其他系统都已经量产,可以向客户发货。


因为新芯片的全方位提升,进而让新系统的性能也有了不小的飞跃。
金琛表示,如下图所示,在AI的垂直领域,新系统让每个应用基本都得到了30%-40%的提升。比如说,在图像方面,有分类、检测,还有文本到图像。除了典型的CNN网络,Graphcore还覆盖了最近比较热门的Vision Transformer的网络以及深层次的文本到图片的网络;在类似基于BERT、ASR以及TextToSpeech(文本转语音)等自然语言处理模型等方面,Graphcore的新硬件同样带来了很大的性能提升。

除了在性能上提升以外,与竞争对手相比,新的Bow系统在性价比上也有比较显著的优势。

如下图左边是Graphcore的Bow Pod的一个形态,右边则是DGX-A100的一个形态。对比结果显示,在EfficientNet-B4的backbone训练中,DGX-A100需要70个小时的训练时间才能完成,但在Bow Pod 16 上,仅需要14个小时左右。也就是说,后者的训练速度接近前者的五倍,再加上性价比方面的优势,那就使得Graphcore整个系统的TCO增益可以达到接近10倍左右。


从横向扩展的性能表现来看,新系统也不遑多让。如下图所示,最左边是IPU-POD 16 ,其余的则是新的芯片集群Bow Pod的一些配置。如果以IPU-POD 16 的性能作为基准,Bow Pod 16 的性能是其的1.4倍,Bow Pod 256 的性能是其的18倍。

当然,正如金琛所说,Graphcore新系统能取得如此成就,除了硬件以外,软件方面的贡献也不容忽视。其中最核心的部分固然是Poplar SDK。而Poplar SDK中的主要部分就是其图编译器、driver、上层的XLA的backend以及公司自研的图编译器PopART。这些软件的加持使得Graphcore可以在不同应用的性能上获得广泛和通用的提升。

除此之外,Graphcore还提供了比较丰富的生态。如在AI软件框架方面,Graphcore支持PyTorch、TensorFlow、HALO、PaddlePaddle,以及Keras这样一个高层的API等;在用户方面,Graphcore支持Jupyter Notebook,以及Inference DeploymentToolkit等,帮助客户实现推算一体的部署。
来到开发者社区方面,Graphcore也提供了广泛的代码用例,以及各种文档、视频的示范。据了解,Graphcore在机器学习的应用上提供了特别多的模型范例,当中就包括图片的识别、检测,以及大模型、语音和语言模型等不同的AI垂直领域,这个模型库还在不停地迭代和增加。在云上,Graphcore也提供了广泛的部署、监控,以及管理这样的软件集成。借助PopVision工具,Graphcore还能进一步帮助其用户和Poplar编程者更有效地提升应用在其平台上的性能优化。

超越人脑处理的机器在路上


在介绍完新产品之后,卢涛还披露了Graphcore正在开发开发一款名为“Good Computer(古德计算机)”的超级智能机器。他指出,目前最大的人工智能模型参数跟真正的人脑比较起来,可能还有100倍左右的差距,而Graphcore正在开发的这款超级智能机器可以用来超越人脑处理。

之所以取这个名字,按照卢涛所说,包含两层含义:一层是好的计算机,意思就是希望计算机能够带来正面的影响;另一层意思则是向非常知名的计算机科学家Jack Good(杰克·古德)致敬。据介绍,Good Computer最高可能可以集成公司8192个IPU,能够提供超过10 Exa-Flops的AI算力。在设计上也许会继续往3D Wafer-on-Wafer演进,可以实现4 PB的存储,助力超过500万亿参数规模的人工智能模型的开发。
“如今AI处理器和整个人工智能领域,都面临着一个X×Y×Z关系的挑战,其中X是应用,Y是框架,Z是处理器,X×Y×Z的可能性会有很多。如果有一套主线道划出来之后,我觉得对很多参与者都是有好处的,尤其是对芯片厂商。这条道可能很宽,但也是沿着道在跑。”卢涛最后说。
换而言之,对于Graphcore来说,未来面临着无限可能,但他们始终还走在正确的道路上。


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2970内容,欢迎关注。

推荐阅读


半导体企业的千金豪赌

谁正在赢下芯片产能竞赛?

华为的显示芯核预备军团


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码 ,回复下方关键词,阅读更多

晶圆|集成电路|设备 |汽车芯片|存储|台积电|AI|封装

回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!

责任编辑:Sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论