在同一块硅片上做40个GPU
早在20世纪80年代, 并行信息处理技术先驱吉恩•阿姆达尔(Gene Amdahl)就提出了一个提升大型机计算速度的计划:制造一种硅晶片大小的处理器。通过将大部分数据移动保留在处理器内部进行,计算速度可以更快,并且更节能。阿姆达尔拿到了当时数额最大的一笔风险投资,投资额是2.3亿美元。之后,他创办了Trilogy System公司,期望将他的愿景变为现实。可惜首次“晶圆级集成”的商业尝试很失败,导致“跳火坑”成为了一个金融新闻词汇。伊利诺伊大学厄巴纳-香槟分校和加州大学洛杉矶分校的工程师们认为,现在是时候再尝试一次了。
在2月举行的IEEE高性能计算机体系结构国际研讨会上,伊利诺伊的电子与计算机工程副教授拉科什•库玛(Rakesh Kumar)及其合作者阐述了有关包含多达40个GPU的晶圆级计算机的思路。这个多处理器“怪物”将计算速度提高了约19倍,而且能耗和信号延迟降低到了原来的1/140以下。
库玛表示:“计算单元之间的通信开销是我们想要解决的一个大问题。”超级计算机中的应用程序一般分布在数百个GPU中,这些GPU位于不同的印刷电路板上,并通过长数据链路进行通信。与芯片内部的互连相比,这些链路耗能更多而且速度较慢。此外,由于芯片和印刷电路板的机械特性不同,必须对处理器进行封装,而且要严格限制芯片可使用的输入和输出数量,因此,将数据从一个GPU转移到另一个GPU的“开销惊人”,库玛说。
因此,需要让GPU模块之间互相连接,这些连接要与芯片内的互连一样快,一样丰富,能耗一样低。这种快速连接能够将这40个GPU集成到一起,成为一个巨型GPU。从程序员的角度来看,“整体就像一个GPU。”库玛说。
一种解决方案是使用标准的芯片制造技术,在同一块硅片上构建这40个GPU,然后在它们之间添加互连,但正是这种思路导致阿姆达尔在20世纪80年代的尝试失败。芯片越大,出现缺陷的可能性也越大。如果芯片与餐盘一样大,那么几乎可以保证,它上面总会有一个可使系统崩溃的缺陷。
更合理的方法是,从已经通过质量测试的普通尺寸的GPU芯片着手,寻找一种能够更好地连接它们的技术。该团队相信他们的硅互连结构(Si-IF)技术可实现这种方式。Si-IF技术用硅代替了电路板,不存在芯片与电路板之间的机械特性不符问题,也就不需要芯片封装。Si-IF晶圆上有一层或多层宽2微米、间距仅有4微米的铜线互连,这相当于芯片上最高级别的互连。在要插入GPU的地方,硅片上有间距约为5微米的短铜柱。将要插入的GPU对齐插入,然后加热即可。这种工艺已经很成熟,称为热压接合,能将铜柱熔接到GPU的铜互连线。伊利诺伊大学厄巴纳-香槟分校和加州大学洛杉矶分校的研究人员表示,由于互连线较窄且间距紧密,一块芯片上的输入和输出引脚数量最少可以提高到原来的25倍。
在设计晶圆级GPU时,库玛和他的同事不得不考虑许多限制因素,包括可以从晶圆上移除多少热量、GPU间怎样能够最快速地相互通信,以及如何为整个晶圆供电。
供电是其中一个较大的限制因素。使用标准的1伏芯片电源,Si-IF晶圆的布线将消耗整整2千瓦功率。因此,库玛的团队将供电电压提高到了48伏,降低了所需电流,从而减少了电能损失。这种方法需要在晶圆周围安置电压调节器和信号调理电容器,因此会占用原本可以用于更多GPU模块的空间。
尽管如此,他们还是在一个设计中塞进了41个GPU。通过对这种设计进行模拟测试,他们发现它比40台标准GPU服务器消耗的能量更少,数据计算和移动速度更快。
Si-IF晶圆级GPU“克服了早期晶圆级设计无法解决的问题”,位于加州圣何塞的Horst技术咨询公司的罗伯特•W.霍斯特(Robert W. Horst)说。20多年前,在天腾电脑公司(Tandem Computer)工作的霍斯特参与开发了唯一商业化的晶圆级产品——在证券交易所取代高速硬盘的存储系统。他预计,散热将是晶圆级芯片开发中最具挑战性的问题之一。“在这么狭小的空间内加入这么密集的逻辑,功耗可能会相当高。”他说。
库玛表示,该团队已经开始着手构建一个晶圆级原型处理器系统,但并未披露更多细节。
- 半导体行业观察
- 摩尔芯闻
最新新闻
热门文章 本日 七天 本月
- 1 东方晶源YieldBook 3.0 “BUFF叠满” DMS+YMS+MMS三大系统赋能集成电路良率管理
- 2 摩尔斯微电子推出MM8108:全球体积最小、速度最快、功耗最低、传输距离最远的Wi-Fi芯片
- 3 德州仪器 (TI) 推出新一代支持边缘 AI 的雷达传感器和汽车音频处理器,帮助汽车制造商重新定义和改进车内的驾乘体验
- 4 收藏,半导体一些术语的中英文对照