3D FPGA会支撑摩尔定律的延续？

2017-12-25 10:00:29 来源: 官方微信

点击

FPGA的发展一直完美的遵从摩尔定律。如Xilinx院士Steve Trimberger在其文章《FPGA的三个时代》中所述，自1984年FPGA面世以来至今（见下图），FPGA的容量增长超过一万倍、速度增长超过一百倍，同时其成本和功耗均降低了超过一千倍。虽然这些发展很大程度上归功于半导体工艺的不断进步，但实际上作为FPGA设计本身，也必须提出一系列新颖的系统和架构级创新，以不断延续这样的发展轨迹。

图1：FPGA的发展轨迹。

因此我们看到，FPGA从最初的简单的可编程结构，逐渐发展到大型的逻辑门阵列，再发展到片上集成各类资源和IP，如存储器、收发器、DSP等，逐步形成当前丰富的FPGA产品门类。然而，随着半导体工艺的进一步发展到10nm以下，继续使用传统的设计方法得到的FPGA芯片的性能指标已经渐渐不能满足摩尔定律的表述。那么，究竟FPGA发展的第四个阶段在何处？FPGA能否继续跟随摩尔定律的发展脚步？需要何种技术才能继续支撑摩尔定律的延续？在下文中，我将尝试回答这些问题。

目前看来，一个可能的答案是使用更先进的3D芯片封装和系统集成技术，有趣的是当前的FPGA厂家使用了截然不同的技术设计和生产3D FPGA。接下来我会分别详细介绍Xilinx的堆叠硅片互联技术- SSI，以及Intel的3D系统级封装- SiP和嵌入式多芯片互联桥接技术- EMIB。

Xilinx 堆叠硅片互联SSI技术

在每一代生产工艺早期，由于工艺和生产技术尚未成熟，因此很难达到较高的良品率，尤其对于面积较大的芯片而言更是如此。研究表明，对于高端FPGA（如Virtex7系列等），如果裸片面积为6平方厘米，使用泊松良率模型推断后，其在工艺早期的良品率仅为0.25%；然而如果裸片面积只有1.5平方厘米，则良品率高达22%。换句话说，在一个12英寸的晶圆上仅能产出0.3个能正常工作的6平方厘米的裸片；相比之下，却能产出1.5平方厘米裸片的数量则为107个！由此可见在工艺早期，不同裸片面积大小所带来的巨大良品率落差。

在上述例子中，注意到如果可以将四1.5cm2的裸片“组合”为一枚6cm2芯片，那么同样的晶圆可以产出平均26.75枚芯片（如下图），随之带来超过一百倍的产能提升。

图2：工艺早期不同面积的裸晶良率与产量的关系。

这便是Xilinx 堆叠硅片互联技术（Stacked Silicon Interconnect – SSI）产生的主要背景。SSI技术示意图如下图所示。

图3：堆叠硅片互联技术（Stacked Silicon Interconnect – SSI）示意图。

和传统封装技术相比，SSI技术在封装基板（Package Substrate）和FPGA裸片之间加入了一层无源硅中介层（Silicon Interposer），同时在硅中介层上可以放置多枚FPGA裸片。这些裸片通过在中介层里的硅通孔（Through Silicon Vias – TSV）、微凸块（Microbumps）以及大量连线进行相互连接。其中，各部分的作用简述如下：

微凸块：连接FPGA裸片上的各类引脚

硅通孔TSV：将裸片的电源、接地以及IO通过C4凸块连接到封装基板。TSV是SSI技术的核心创新点与技术难点。值得注意的是TSV通过蚀刻工艺制造，而非激光钻孔，因此对制造工艺有着严格要求。

芯片连线：中介层可以提供上万条连线将相邻的两枚FPGA裸片进行互连。

通常而言，中介层会使用已较为成熟的工艺进行加工，比如本例中使用了65nm工艺，并且在硅中介层中不含晶体管等有源器件，这样可以保证较高的良率、降低制造风险，以及降低系统静态功耗。

综上所述，使用SSI这种基于硅中介层的FPGA封装集成技术的主要优点有：

1.能在每代半导体制造工艺早期生产出良率高的大型FPGA器件，加快了产品面世周期，从而能快速抢占市场（尤其是高端市场）。这也是其最主要的优点。

2.即使制造工艺成熟到可以生产良率较高的大型单芯片FPGA器件，使用基于硅中介层技术也能通过组合多枚裸片集成更多的可编程逻辑单元。

3.自从2012年SSI技术发布至今，该制作工艺已较为成熟。

在2017年的Hot Chips大会上，Xilinx发布了Virtex UltraScale+ HBM系列FPGA，其中仍然使用基于第四代硅中介层的技术来组合3枚16nm FPGA，以及2枚32GB的存储芯片（High Bandwidth Memory - HBM），如下图所示。

图4：Virtex UltraScale+ HBM FPGA结构图。

SSI技术的主要缺点

然而，SSI技术的缺点也同样明显，主要有以下四点。

首先，如前文所述，SSI技术特别适用于每代半导体工艺制造工艺早期，即制造大型裸片工艺不成熟导致良率极低时。然而，当工艺成熟后，良率会明显上升。在本章开始的例子中，据研究表明，使用成熟的工艺制造6cm2裸片的良率会从一开始的0.25%猛增至55%，相比之下制造1.5cm2裸片的良率会从22%上升至86% 。这样以来，一块12英尺的晶圆可以产出66.9片6cm2的裸片，以及104.6片4x1.5cm2的裸片，产量差别已然不大。同时，制造硅中介层、TSV以及在同一封装内组装多枚裸片的成本就会在此时逐步显现，导致整体的成本优势进一步减弱。

第二，和一片完整的大型FPGA裸片相比，将多枚FPGA裸片通过硅中间层组合可能会带来明显的性能降低。这里对性能的影响来自于很多方面，比如在垂直方向上，由于硅中间层的引入，使得裸片引脚到封装引脚要先后经过硅通孔TSV，额外的C4凸块，以及封装基底内的导线。相比之下单芯片系统只需经过封装基底内的导线即可。

在水平方向上，硅中介层中的导线和微凸块会带来额外的延迟开销。研究表明，对于一个7x12mm的裸片而言，其微凸块可能分布在距离芯片边界2.25mm的“远方”，这样将两个裸片进行互连时，在中介层中的导线长度会非常可观，从而可能带来1ns左右的线路延时。相比之下，FPGA片上的延时才不过几百ps。

下图展示了Andre Pereira和Vaughn Betz在2014年的FPGA国际会议发表的文章中的结果，从中可见裸片间延时对系统性能的消极影响。例如，当互连使得关键路径增加0.5ns，1ns或1.5ns时，系统性能会分别下降约20%，35%和50%。

图5：裸片间延时对系统性能的消极影响。蓝色线为单一硅片，即没有片间延时。

此外，硅通孔TSV也可能会对性能造成负面影响。对于一个大型FPGA，可能存在成千上万个I/O引脚，而每个都需要有TSV与之对应，这样大大增加了制造难度。同时，高密度TSV也可能对信号一致性造成干扰，引发串扰和耦合，这增加了尤其对于高速模拟信号的设计和控制的难度和复杂性。

第三，该技术对FPGA配置的灵活性也可能会造成很大影响。采用多枚FPGA裸片相当于人为的划分了多个设计区域和边界，为了设计的优化实现，可能需要人为进行设计划分，增加了设计成本和周期。另一方面，这些无法改动的设计区域和边界也可能会造成额外的芯片使用，从而导致功耗的增加和性能的降低。如下图所示，假设原本有一个设计包含模块A到F，其中F为内存控制器并连接了大量并行I/O。在单芯片系统中，该设计只使用2/3的芯片面积即可实现（见下图左）。然而在SSI器件中，由于两个裸片间的互连延时增加，将模块F分布于两个裸片已无法满足时序要求，因此只能将其放于单个裸片中。这样一来，模块ABCD要重新布局到整个芯片，造成不必要的资源使用（见右下图）。

图6：多硅片模型对FPGA配置灵活性的影响。

第四，FPGA设计工具需要进行一定程度的改动和优化，以适应这种新的FPGA架构，从而可能会增加设计难度、延长了设计周期。对于时序优化工具而言，片间延时的增加使得时序收敛的难度增加。对于布局布线工具而言，由于片间只存在相对有限的布局布线资源，因此增加了布局拥堵的可能性。和传统FPGA设计流程相比，在布局映射（Mapping）和布线（Routing）两步之间，可能会需要加入额外的人为或自动的设计区域划分，以协调各个裸片的资源使用和时序收敛。另外，全局的时序和布局布线的协同优化可能会变得更加复杂。理论上Xilinx的Vivado设计工具会解决（或尝试解决）上述问题，但不清楚用户有多大的灵活性对设计工具进行控制和进行人为优化。由于没有找到相关文档，因此也不清楚和在单一FPGA硅片上使用传统设计流程进行开发相比，这种新的流程对系统性能和资源使用的影响。然而，对于学术研究而言，诸如VPR这种在学术中广泛使用的设计工具需要进行架构层面的调整，以适应这种新的FPGA结构。但这对于学术发展不一定是坏处。

Intel 3D系统封装和EMIB技术

英特尔FPGA从它的旗舰产品 – 基于英特尔14nm制造的Stratix10系列开始，采用了Heterogeneous 3D system-in-package (SiP) technology ，即“异构3D系统级封装技术”。该技术产生的背景与摩尔定律驱动的半导体制造工艺的发展也有密切联系，最主要的因素有以下两点：

第一，不同功能的IP所对应的成熟（或性价比更高的）制造工艺不尽相同，如下图所示。可以看到，对于逻辑电路而言，工艺越先进通常会带来更好的性能和功耗，这也是为何CPU，FPGA等不断追求新工艺的原因；然而对于很多其他类型的IP，如DRAM，Flash，传感器和模拟器件等，他们都适合或只能使用已成熟的工艺进行制造。这样就需要提供一种桥接的方式，将不同代的IP进行异构整合。

图7：不同功能IP的成熟工艺示意图。

第二，不同IP的更新迭代速度不同。这里最典型的例子就是各类收发器IP和FPGA的整合。对于相同的FPGA，可能需要集成不同类型的收发器，它们可能需要支持不同的协议和标准，如PCIe，以太网等，也可能有不同的数据速率的发展和迭代，如从10.3Gbps到28Gbps再到今后会出现的56Gbps等。但是如果将收发器和FPGA进行同构集成，即做在同一枚裸片上，那么每次收发器进行功能迭代和发展，都要重新进行整枚芯片的流片过程。同时，如果需要支持不同的速率或标准，就需要制造多个不同的完整芯片。因此需要一种集成方式，保持FPGA裸片独立不变，且能异构连接多种收发器IP以组成完整系统。

综上，英特尔的3D系统集成技术可以解决上述问题，如下图所示，这使得FPGA与其他不同功能的IP，以及不同的制造工艺，进行混合集成，并实现异构系统。

图8：使用SiP构建异构系统示意图。

EMIB技术

英特尔3D系统级封装的核心技术是嵌入式多管芯互联桥接（Embedded Multi-die Interconnect Bridge - EMIB）技术，在2017年的英特尔精尖制造日中，英特尔资深院士Mark Bohr对其进行了详细阐述。EMIB技术的示意图和封装切面图如下所示。和Xilinx的SSI技术不同，EMIB没有引入额外的硅中介层，而是只在两枚裸片边缘连接处加入了一条硅桥接层（Silicon Bridge），并重新定制化裸片边缘的I/O引脚以配合桥接标准。

图9：EMIB结构示意图。

与使用硅中介层的技术相比，EMIB最大的优点在于以下两点：

1.降低了系统的制造复杂度，因为无需制造覆盖整个芯片的硅中介层，以及遍布在硅中介层上的大量硅通孔（TSV），而只需使用较小的硅桥在裸片间进行互联即可。同样的，由芯片I/O至封装引脚的连接和普通封装技术相比并未变化，而无需再通过TSV或硅中介层进行走线。

2.降低了不同裸片间的传输延时，减少了信号的传输干扰。硅桥接只需在硅片边缘进行，不需要在中介层中使用长导线。对于模拟器件（如收发器）而言，由于不存在通用的中介层，因此对高速信号的干扰明显降低。

基于SiP和EMIB的英特尔FPGA

具体到Stratix10 FPGA中，EMIB主要被用来进行FPGA和收发器以及高带宽存储器（High Bandwidth Memory - HBM）的连接，如下图所示。该芯片的一些技术细节，特别是其3D架构也在2017年的Hot Chips大会上对外公布。另外，在已经公布的英特尔下一代FPGA Falcon Mesa中，会使用第二代EMIB技术。

图10：Stratix10 FPGA结构示意图。

从上图可以看到，Stratix10和Xilinx 3D FPGA最大的不同点在于它使用了一枚完整的FPGA硅片，而非多个分立的小型FPGA，这使其理论上可以基本上规避掉上文中提到的多硅片模型的各种缺点。另外需要注意到的是，除收发器和存储器以外，EMIB技术还可以使得FPGA直接与CPU或/和ASIC进行连接，而不需要通过传统的PCIe或QPI总线，因此系统系能将大幅提升。

从另一个角度看，这种异构集成技术解耦了FPGA，CPU和ASIC的开发周期，形成了一种模块化系统集成方案。对英特尔本身而言，自不必说其各类CPU产品，更有日渐丰富的ASIC产品如针对人工智能和神经网络的Nervana产品系列、针对计算机视觉的Movidius产品系列、以及针对自动驾驶的Mobileye系列，都可以搭配FPGA进行快速的芯片级整合，形成各自的硬件加速方案。另外，还可以结合其他第三方的IP。可以看出，使用异构FPGA集成可以进一步扩展FPGA的应用场景，加速了细分产品的面市时间。在简化硬件开发的同时，产品研发的重心也会逐渐偏移到软件层面，相对而言降低了开发门槛，使得更多开发者加入，扩大整个生态系统。

基于EMIB的异构FPGA的主要问题

然而，同样需要注意到这种基于EMIB的异构FPGA技术的几个问题：

首先，英特尔FPGA的方案和Xilinx最大的不同在于使用了单枚FPGA裸片，这样一来如前文所论述的那样，每代工艺早期的良率将可能会成为很大的问题。另一方面，随着半导体制造工艺不断推进，技术难度不断增加，因此两代工艺的间隔会被逐渐拉长，这样会使得每代工艺的成熟时间也对应增长，使得工艺早期的良率问题能在一定程度上得以缓解。

需要注意的是，Mark Bohr在2017年的英特尔精尖制造日上指出，工艺间隔时间的增长并非代表摩尔定律失效，而是需要“让子弹再飞一会儿“。如下图所示，英特尔14nm到10nm工艺的间隔时间大概为4年，但晶体管密度增长了2.7倍，仍旧准确符合摩尔定律中每18个月晶体管密度增加1倍的描述。

图11：英特尔各代工艺节点与时间。

第二，通过EMIB连接不同裸晶后可能会形成一个不规则的芯片结构，由此可能引发一系列潜在的问题。例如，在英特尔刚刚发布的Stratix10 MX FPGA的官方图中（下图），我们可以看到FPGA与HBM以及收发器的布局排列。另外我们已知各部分由EMIB连接且没有硅中介层。但由于EMIB和SSI相似也是无源器件，另外由于FPGA和其他外置位IP的制作工艺、集成方法（如Stratix10MX中的HBM是基于TSV制造的3D芯片）都不尽相同，那么在芯片工作时EMIB两端及其本身的一致性可能会成为问题，如发热不均衡导致的应力、连接、可靠性等问题。当然这些只是个人的猜测，或许已被解决也未可知。

图12：Stratix MX FPGA芯片图。

结语

本文详细介绍了两家主要FPGA厂商各自采用的3D FPGA封装集成技术。总体而言，两家的技术各有千秋，优缺点同样鲜明。但其共同点都是在不断提高系统集成度，带来更好的性能和功耗，并推进半导体技术的发展，延续摩尔定律。

严格来讲，文中所述的技术并非真正意义上的3D 集成技术，因为各个裸晶仍旧排列在二维平面，只是通过额外的中介层或桥接进行系统级集成，因此在学术界通常称其为2.5D技术，即介于2维芯片和3维芯片之间。但随着摩尔定律继续驱动技术的发展，将裸晶进行堆叠构成的真∙3D FPGA芯片也终将面世并逐渐成为主流，也或许会出现其他更加新颖的架构。让我们拭目以待。

（声明：文中观点只代表作者个人看法，与作者所属单位及发表平台无关，亦不代表官方观点。）

参考文献

1. Three Ages of FPGAs: A Retrospective on the First Thirty Years of FPGA Technology， Steve Trimberger, 2015.

2. CAD and routing architecture for interposer-based Multi-FPGA Systems, Andre Pereira and Vaughn Betz, FPGA 2014.

3. Xilinx whitepaper: Xilinx Large FPGA Methodolody Guide, 2012.

4. Xilinx whitepaper: Xilinx Stacked Silicon Interconnect Technology Delivers Breakthrough FPGA Capacity, Bandwidth, and Power Efficiency, 2012.

5. Assembly and Reliability Challenges in 3D Integration of 28nm FPGA Die on a Large

High Density 65nm Passive Interposer, Raghunandan Chaware, Kumar Nagarajan, Suresh Ramalingam, 2012.

6. Xilinx 16nm Datacenter Device Family with In-Package HBM and CCIX Interconnect, Gaurav Singh et al. Hot Chips 2017.

7. Heterogeneous Modular Platform, Sergey Shumarayev, Hot Chips 2017.

8. Intel whitepaper: Enabling Next-Generation Platforms Using Intel 3D System-in-Package Technology.

9. Intel’s New 10 nm Process: The Wind in our Sails, from FPGA CPU News.

作者简介

石侃博士，于伦敦帝国理工大学电子系取得博士学位，后加入英特尔公司可编程解决方案事业部任高级FPGA研发工程师至今。石侃在半导体行业有多年的学术研究和工业界开发经验，尤其深耕于FPGA、高性能与可重构计算、计算机网络和虚拟化等领域。他曾在多个学术界顶级会议和期刊如DAC、FCCM、TVLSI等发表过论文。在工业界，他主要从事使用FPGA进行数据中心网络加速器、网络功能虚拟化、高速有线网络通信等相关技术的研发和创新工作。

责任编辑：石侃

摩尔定律 FPGA