从AGI 到互联技术元年,重塑算力世界秩序
2024-03-19
14:15:45
来源: 互联网
点击
作者:奇异摩尔 Kiwimoore
ChatGPT 诞生一年后,以Sora为代表的 AGI 实现突破性进展,再度引爆了高性能计算市场。面对以天为单位飞速迭代的算力需求,以及单个处理器性能的增长困境(Scale up),促使企业转向扩展计算集群规模,踏上Scale out 之路。从此,行业所面临的核心挑战也从“单个芯片-集群”,“算力-互联”转变。伴随AGI的诞生,互联元年同步开启。
2024年3月5日,互联领域先行者奇异摩尔在“奇芯合粒 异往无前”2024春季发布会上正式推出了基于 Kiwi SoChiplet Platform 的全系列互联产品及全栈式互联解决方案。该系列产品包含“高性能互联芯粒IO Die、高性能互联底座 Kiwi 3D Base Die、UCIe 标准 Die2Die IP以及网络加速芯粒NDSA Family”,全面覆盖片内、片间直至网间的互联场景。基于IO Die,奇异摩尔及合作伙伴Ventana宣布共同推出了全球首款服务器级的RISC-V CPU;同时,奇异摩尔也基于Base Die发布了全球首款3DIC AI芯片“AI Booster”。
UCIe Board member 陈健在发布会上表示 “在Deep Learning、大模型时代激增的算力需求、摩尔定律放缓、封装技术演进”等多种因素的共同作用下,Chiplet和IO Die为代表的互联芯粒因在良率、先进制程解耦、复用能力等方面所显示出的优势,成为了历史的选择。基于Chiplet架构和通用互联标准,一个开放性、跨公司、支持规模化复用的“货架芯片”市场正逐步成为全行业的愿景。
这一愿景依赖于模型创新和无尽的算力需求。如今,从微软到谷歌,从阿里到字节跳动,万卡集群俨然成为大模型训练的标配。想支撑更大的模型,算力基础设施和生产方式必须同步转变。首先,异构加速和超大规模平台,使更大规模的集群设计成为可能;其次,想通过Scale Out方式提升集群算力,必须从网络层面着手,互联三要素 “Bandwidth, Efficiency, Workload”缺一不可。
在网络侧,奇异摩尔自研的高性能网络加速芯粒Kiwi NDSA(Network Domain Specific Accelerator)系列,内建RoCE V2 高性能 RDMA (Remote Direct Memory Access) 和数十种卸载/加速引擎,可作为独立芯粒,实现系统不同位置的加速。同时,通过硬件可配置,软件可编程的灵活软硬件架构,能够满足客户对复杂业务场景的多样化需求。得益于Chiplet、RISC-V和FPGA的灵活组合,Kiwi NDSA 出色的平衡了通用与专用,性能和成本间的矛盾。
据奇异摩尔产品及解决方案副总裁祝俊东介绍,奇异摩尔NDSA家族产品之一,“NDSA-RN-F” 将于近期问世。作为全球首批200/400G的高性能FPGA RDMA网卡,“NDSA-RN-F”具备极高的集群扩展能力,可以大幅提升集群节点间的东西向流量交互效率,使得更大规模的集群设计成为可能。同时拥有us级超低延时,支持约数十 MQP高并发,性能远超同类FPGA产品,并媲美全球标杆 ASIC产品。
NDSA家族产品之二,全球首款支持800G带宽的RDMA NIC Chiplet产品 “NDSA-RN”。其性能更为强劲,除带宽升级到800G之外,延时也降至ns级,并支持数十GB的超大规模数据包,性能将超越目前全球标杆ASIC产品。
网间互联的瓶颈与痛点,并非为云服务厂商独有。存算一体的环境中,互联芯粒能有效提升系统性能、集成度、可扩展性和可靠性。亿铸科技副总裁李明表示,AI大算力芯片竞争核心正逐渐转向 “存储、算力,破除墙”等挑战。存算一体在破除“存储墙”方面具有先天优势。亿铸致力于结合存算一体+Chiplet芯粒优势,在AI算力芯片产业格局的基础上,贡献更具性价比、能效比、算力发展空间的AI大算力芯片发展新路径。
芯片间互联场景,受AI等各类大算力场景的驱动,计算架构将从异构计算进一步走向多种异构融合的超异构并行计算,片间互联瓶颈进一步凸显。NDSA家族产品之三,奇异摩尔自研的全球首创GPU Link Chiplet “NDSA-G2G”,通过RDMA和D2D技术,在芯片间搭建了高速数据交换网络,可实现近TB/s的超高速数据传输,其性能达到全球领先水平,满足AI芯片对于片间交换不断增长的需求。
Die间互联:Die-to-Die IP
Die间互联领域,奇异摩尔宣布将正式发布全球首批支持 UCIe V1.1 的 Die2Die IP “Kiwi-Link”,互联速度高达 32GT/s,延时低至数nS。全面支持UCIe、CXL、Streaming等主流协议,即插即用;同时支持标准封装/先进封装等多种封装形态。
“为达到货架芯粒的愿景,开放互通的D2D标准是关键因素” ,陈健介绍,UCIe 最新1.1标准在1.0标准基础上进行了全方面的升级,其中包括汽车行业增强特性,全栈流协议,封装成本优化和测试认证。作为构建开放芯粒生态的标准组织,UCIe 将通过各方面的努力促成Chiplet生态的发展和成熟。
微观层面,在摩尔定律放缓背景下,为持续提升单个芯片设计规模及能效,片内互联技术创造了新的工程成就。作为发布会的亮点,首次登台亮相的 Kiwi SoChiplet Platform 是奇异摩尔所发布这一系列互联产品的基础。其基于高性能互联网络Kiwi Fabric,可高效连接、调度海量高速节点,实现多Die间高带宽、低延时的互联。
祝俊东介绍:Kiwi SoChiplet Platform在支持芯粒数量、CPU Core、Die2Die带宽、Memory 带宽、Ext Interface 等关键指标方面,均达到国际领先水平。基于该平台,客户可以轻松构建多样化的产品线,实现连接计算和存储/连接的分离,以相对低的成本使产品及性能持续保持国际领先水准。
全球首款数据中心级,通用互联芯粒Kiwi IO Die
从Kiwi SoChiplet Platform 出发,奇异摩尔推出了全球首款数据中心级通用互联芯粒 Kiwi IO Die,内部集成了如D2D\DDR\PCIe\CXL等大量存储、互联接口。客户可以根据企业自身需求,围绕IO Die,轻松搭建低/中/高性能的数据中心处理器。该平台最高支持10+Chiplets、构建高达192 core CPU或1000T GPU的算力平台。
发布会上,奇异摩尔及高性能RISC-V领域的领导者 Ventana Micro公开展示了基于Kiwi IO Die的应用方案。双方以远低于传统 SoC 构建的时间和成本创建了一款高性能数据中心级RISC-V处理器,并就此打造了RISC-V CPU Chiplet Platform,实现了RISC-V与互联技术组合的跨越性一步。
在本次发布的RISC-V CPU Chiplet中,计算单元部分,即Ventana Veyron V2处理器,在其前身V1基础上进行了重大升级,提供更好的Performance/W。每个芯粒包括32个核心,多颗芯粒基于chiplet架构,通过UCIe接口,连接到奇异摩尔提供的高性能IO Die上,实现最高192个内核,支持包括奇异摩尔NDSA在内的多种领域加速器。
Ventana创始人兼CEO Balaji Baktha表示:Ventana 和奇异摩尔共同建立了一个可扩展架构,可将多个Ventana Veyron V2 与 奇异摩尔 的I/O Die组成不同配置的SoC,从而获得功率、成本和SKU优化。这种方案不仅提高了灵活性,允许用户根据需要调整AI应用的规模和性能,也能有效避免对单一供应商的依赖,使客户在竞争激烈的市场中脱颖而出。
“RISC-V和Chiplet的目标同为构建一个成本更加低廉,更加普惠的算力世界,二者的组合充满想象力,将会塑造全新的商业形态。” 陈健就此表示。
Kiwi 3D Base Die,为Edge AI提速
随着大模型发展,推理需求不断增长。根据 OpenAI 论文:Scaling Laws for Neural Language Models 测算,Sora 推理算力需求是 GPT-4 的 1000 倍以上。为应对不断飞涨的推理需求,在片内,互联趋势已从2.5D扩展至3D层面。奇异摩尔全球首款通用高性能互联底座 Kiwi 3D Base Die,实现了通用互联芯粒在带宽、能效、搭载芯片数量等多方面的突破性进展。
Kiwi 3D Base Die具有极高的互联密度,通过3D D2D、PCIe等高速接口,能够以20%的功耗实现8倍于2.5D结构的互联密度;其具备卓越的通用性和灵活性,最高可实现16颗算力芯粒堆叠,并可通过高速外部接口连接不同的Host SoC单元,充分利用客户现有硬件资源;同时集成了大容量3D Cache,在真正意义上将存储、计算、互联功能整合为一体。
根据自身需求,客户无需流片,只需在Base Die上封装不同数目的算力芯粒,外接HBM,即可快速形成应对不同场景的高性能芯片,特别适用于覆盖多个细分垂直市场的企业。
基于3D Base Die,奇异摩尔面向Edge AI,正式推出了全球首款通用3DIC Chiplet “AI Booster”,将32颗存算一体芯粒单元整合在一起,通过底层的Base Die进行垂直互联,从而实现性能和灵活性的完美兼容。
针对AI Booster设计方面的经验,奇异摩尔封装与运营总监徐健表示,Chiplet 设计可以理解为Die-interposer-Package协同设计的结果。不同于传统的封装设计,Chiplet的设计更为复杂,需要从系统层面定义好整体设计思路,包括架构、片内互联方式、封装结构和工艺等,并需要架构、电路、封装设计和工艺团队的紧密配合。
当然,Chiplet作为一种新的设计方式,离不开专业EDA工具的支持。芯和半导体联合创始人代文亮博士表示,奇异摩尔本次发布的多个2.5D/3DIC产品为例,其设计正是基于芯和3DIC Chiplet 设计仿真EDA平台,从架构探索、物理实现、分析验证、信号完整性仿真、电源完整性仿真到最终签核的全流程解决方案,极大地提高 了芯片设计的迭代速度,最终实现了如此出色的产品。
为实现更高密度的底层互联,先进封装技术也被赋予了新的、更高的期待。长电科技创新中心总经理宗华博士表示,异构集成已成为高性能计算领域的主流趋势。2.5D/3D先进封装技术有力的推动了高性能计算发展。长电科技目前推出了XDFO-Organic,XDFOI-Bridge,XDFOI-TSV三种先进封装方案,其中,性价比最高的方案为XDFOI-Bridge,可以通过先进封装技术把各种功能单元集成在一起,形成一个高性能的超异构系统,助力高性能计算未来。
奇异摩尔研发副总裁温德鑫在发布会现场介绍了奇异摩尔的2.5D/3D design Platform。该平台由奇异摩尔和UMC等产业链伙伴合作打造,全面涵盖从系统探索、规划,2.5D/3D 设计验证,生产和验证,量产管理的Chiplet方案。客户可以基于该平台,迅速设计、验证、量产、加速上市时间。
奇异摩尔创始人兼CEO田陌晨表示,Scaling 已成为全行业关注的焦点。无论自然界还是人工智能,在scaling 中,个体间的交流、互联都是促成从量变到质变的核心。
系统总算力,由算力、算力密度、互联带宽、IO带宽、存储带宽共同决定。互联是唯一无法通过Scaling 提升的参数。奇异摩尔作为一家专注于互联技术的企业,致力于通过互联技术的创新,提升互联密度的壁垒,助力AGI 时代技术语言统一的可能性,与众合作伙伴,共同建造AGI 时代的巴别塔。
责任编辑:sophie
相关文章
- 半导体行业观察
- 摩尔芯闻