在同一块硅片上做40个GPU

2019-05-17 14:00:20 来源: 半导体行业观察

点击

早在20世纪80年代，并行信息处理技术先驱吉恩•阿姆达尔（Gene Amdahl）就提出了一个提升大型机计算速度的计划：制造一种硅晶片大小的处理器。通过将大部分数据移动保留在处理器内部进行，计算速度可以更快，并且更节能。阿姆达尔拿到了当时数额最大的一笔风险投资，投资额是2.3亿美元。之后，他创办了Trilogy System公司，期望将他的愿景变为现实。可惜首次“晶圆级集成”的商业尝试很失败，导致“跳火坑”成为了一个金融新闻词汇。伊利诺伊大学厄巴纳-香槟分校和加州大学洛杉矶分校的工程师们认为，现在是时候再尝试一次了。

在2月举行的IEEE高性能计算机体系结构国际研讨会上，伊利诺伊的电子与计算机工程副教授拉科什•库玛（Rakesh Kumar）及其合作者阐述了有关包含多达40个GPU的晶圆级计算机的思路。这个多处理器“怪物”将计算速度提高了约19倍，而且能耗和信号延迟降低到了原来的1/140以下。

库玛表示：“计算单元之间的通信开销是我们想要解决的一个大问题。”超级计算机中的应用程序一般分布在数百个GPU中，这些GPU位于不同的印刷电路板上，并通过长数据链路进行通信。与芯片内部的互连相比，这些链路耗能更多而且速度较慢。此外，由于芯片和印刷电路板的机械特性不同，必须对处理器进行封装，而且要严格限制芯片可使用的输入和输出数量，因此，将数据从一个GPU转移到另一个GPU的“开销惊人”，库玛说。

因此，需要让GPU模块之间互相连接，这些连接要与芯片内的互连一样快，一样丰富，能耗一样低。这种快速连接能够将这40个GPU集成到一起，成为一个巨型GPU。从程序员的角度来看，“整体就像一个GPU。”库玛说。

一种解决方案是使用标准的芯片制造技术，在同一块硅片上构建这40个GPU，然后在它们之间添加互连，但正是这种思路导致阿姆达尔在20世纪80年代的尝试失败。芯片越大，出现缺陷的可能性也越大。如果芯片与餐盘一样大，那么几乎可以保证，它上面总会有一个可使系统崩溃的缺陷。

更合理的方法是，从已经通过质量测试的普通尺寸的GPU芯片着手，寻找一种能够更好地连接它们的技术。该团队相信他们的硅互连结构（Si-IF）技术可实现这种方式。Si-IF技术用硅代替了电路板，不存在芯片与电路板之间的机械特性不符问题，也就不需要芯片封装。Si-IF晶圆上有一层或多层宽2微米、间距仅有4微米的铜线互连，这相当于芯片上最高级别的互连。在要插入GPU的地方，硅片上有间距约为5微米的短铜柱。将要插入的GPU对齐插入，然后加热即可。这种工艺已经很成熟，称为热压接合，能将铜柱熔接到GPU的铜互连线。伊利诺伊大学厄巴纳-香槟分校和加州大学洛杉矶分校的研究人员表示，由于互连线较窄且间距紧密，一块芯片上的输入和输出引脚数量最少可以提高到原来的25倍。

在设计晶圆级GPU时，库玛和他的同事不得不考虑许多限制因素，包括可以从晶圆上移除多少热量、GPU间怎样能够最快速地相互通信，以及如何为整个晶圆供电。

供电是其中一个较大的限制因素。使用标准的1伏芯片电源，Si-IF晶圆的布线将消耗整整2千瓦功率。因此，库玛的团队将供电电压提高到了48伏，降低了所需电流，从而减少了电能损失。这种方法需要在晶圆周围安置电压调节器和信号调理电容器，因此会占用原本可以用于更多GPU模块的空间。

尽管如此，他们还是在一个设计中塞进了41个GPU。通过对这种设计进行模拟测试，他们发现它比40台标准GPU服务器消耗的能量更少，数据计算和移动速度更快。

Si-IF晶圆级GPU“克服了早期晶圆级设计无法解决的问题”，位于加州圣何塞的Horst技术咨询公司的罗伯特•W.霍斯特（Robert W. Horst）说。20多年前，在天腾电脑公司（Tandem Computer）工作的霍斯特参与开发了唯一商业化的晶圆级产品——在证券交易所取代高速硬盘的存储系统。他预计，散热将是晶圆级芯片开发中最具挑战性的问题之一。“在这么狭小的空间内加入这么密集的逻辑，功耗可能会相当高。”他说。

库玛表示，该团队已经开始着手构建一个晶圆级原型处理器系统，但并未披露更多细节。

责任编辑：Sophie

硅片 GPU

申请专栏作者

: 半导体行业观察

: 摩尔芯闻

在同一块硅片上做40个GPU

相关文章

最新新闻

热门文章本日 七天 本月

热门评论

热门搜索

在同一块硅片上做40个GPU

相关文章

最新新闻

热门文章 本日 七天 本月

热门评论

热门搜索

热门文章本日七天本月