AI时代,CPU依然强势!

2024-03-18 15:24:31 来源: 半导体行业观察杜芹

人工智能应用的热潮不断升温,据全球调研结果表明,58%的企业计划在不远的将来融合生成式AI技术到他们的商业模式中。预计到2026年,将有超过3000亿美元的投资流向生成式AI领域,包括硬件、软件和解决方案。此外,超过一半的边缘应用将采用AI技术,到2028年,超过80%的个人电脑将演变为AI驱动的PC,以提升用户的生产效率。同时,超过80%的公司计划在2026年之前引入生成式AI以增强企业生产力。
 
处理器技术的发展是AI时代进步的基石。如今,各大芯片厂商(CPU、GPU和ASIC等等)围绕着AI领域的竞赛愈演愈烈。虽然GPU因其并行处理能力在某些AI应用中表现出色,但CPU在处理复杂的数据处理任务、支持多任务操作以及优化AI模型推理方面依然占有一席之地。特别是英特尔的第五代至强CPU,它通过创新的设计和技术优化,在AI大模型的推理和训练领域展现了强大的实力。
 
CPU更像是一个大侠,十八般武艺样样精通,一个人可以应对很多人,单打独斗能力很强。GPU更像是军队,每个人没有什么特色,但是人多,执行的任务简单且并发高,因为GPU业务逻辑非常简单,但是核数众多。”英特尔技术专家近日在一次媒体沟通会上形象的形容道。
 
AI时代:拼性能,也拼性价比
 
AI时代,性能和性价比是两大关键因素。一方面,人工智能应用对计算能力提出了越来越高的要求,需要高性能的硬件和软件才能满足需求。另一方面,AI应用的成本也需要控制,以确保其经济效益。
 
英特尔去年年底推出了第五代至强可扩展处理器,相比前一代,在核心数量和多项性能指标上均实现显著提升。第五代至强处理器最多拥有64个核心,并通过引入针对AI优化的新指令集,如AMX和AVX,进一步提高了主频和整体性能,特别是在支持生成式AI应用方面表现出色。
 
 
 
近日,英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰在一次媒体沟通会上对第五代至强作了进一步的介绍,他指出,在内存带宽方面,第五代至强处理器在业界数据中心级处理器中表现卓越,达到5600MT/s的高带宽。同时,三级缓存容量提升了三倍,使得数据处理无需频繁访问内存,提升了处理效率。
 
软件生态方面,随着第五代至强的发布,英特尔向社区贡献了300多个深度学习模型,并优化了50多个基于机器学习的模型,供开发者使用。英特尔还更新了AI开发软件,以便在第五代至强处理器上实现更佳的应用优化,并加强了对主流大模型和生成式AI框架,如PyTorch和TensorFlow的支持。
 
性能方面,第五代至强在AI训练、实时推理、批量推理等方面,根据不同算法,均实现了显著性能提升,最高达到40%。基于最新生成式AI大模型的通用服务器在性能上完全满足需求,即使在高负载下也能保持优异的性能。
 
在很重要的性价比方面,第五代至强处理器能够在保持100ms内响应时间的同时,支持多用户并发访问。此外,合作伙伴的实际应用验证,如阿里云和百度云的测试,也证明了第五代至强在生成式AI模型推理上的出色性能。
 
“整体来看,像一些通用的应用,如会议纪要提取、大纲总结、内容分析,以及一些内容创作,尤其是最近大家讨论的比较多的文生图、机器人聊天客服、代码撰写,这种生产力提升的应用中,使用通用算力,尤其是基于第五代至强的服务器的结果还是比较有优势的,因此我们对第五代至强服务器满足这些生成式AI模型的工作负载需求充满信心。”庄秉翰指出。
 
第五代至强——架构深度剖析
 
第五代至强能在AI领域发挥如此功效,其背后的架构可能功不可没。第五代至强的关键性能指标提升主要体现在以下几个方面:
 
1.升级到Raptor Cove核心。
2.核心数增加,从最多的60核升级到64核。
3.LLC大小从1.875MB增加到5MB。这在英特尔的历史上是一次重大跃进,过去英特尔的LLC基本上在1M-2M。
4.DDR速度从4800MT/s提升到了5600MT/s。
5.UPI速度从16GT/s提升到20GT/s。
6.SoC芯片拓扑结构更改,4芯片封装改为2芯片封装(如上文中所述)。
7.待机功耗降低。通过全集成电压调节器(FIVR)的优化和主动空闲模式的增强实现,提高了能效,尤其在非满载运行时。
 
英特尔资深技术专家从制程技术、芯片的布局、性能与能效、末级缓存、内存IO等方面,详细阐述了第五代至强处理器在这些看不见的地方所做的技术创新,以及这些创新所带来的实际性能提升和能效优化。
 
 
 
第一,制程技术改进。制程是半导体领域离不开的话题,第四代和第五代至强都是基于Intel 7的制程,它是采用了Dual-poly-pitch SuperFin晶体管技术。从第四代至强到第五代至强,英特尔都在关键的技术指标做了改进,特别是在系统的漏电流控制和动态电容方面,这两方面的指标都对整个晶体管的性能表现有比较大的影响。通过这些调整,整体上第五代至强在同等功耗下的频率可以提升3%,其中有2.5%是由漏电流控制贡献的,动态电容下降贡献了0.5%。
 
第二点讨论的是芯片布局的重要性。随着对服务器计算能力需求的增加,我们需要在芯片内集成更多核心和更宽的内存带宽。增加的内存带宽会导致更多的I/O需求,进而推动芯片面积的增长。这种面积扩大带来的挑战主要有两方面:一是随着芯片密度增加,芯片的良品率会面临考验;二是单个芯片面积过大可能会超出光刻机的尺寸限制。
 
为了应对这些挑战,现代芯片设计趋向于将一个大芯片分割成多个小芯片,然后采用多芯片封装技术集成在一起。以第四代英特尔至强处理器为例,就采用了将芯片分为四个相对对称部分的设计,而第五代至强的切分方式则调整为两部分。这种调整减少了芯片间通信所需的接口数量,节省了额外的芯片面积并减少了功耗。通过精细的芯片质量控制,即使在较大的芯片面积下也能保持良好的良率。同时,将四片芯片改为两片有助于更有效地控制芯片面积。
 
这两片芯片之间通过英特尔称之为MDF的内部互连Fabric相连。使用7条全带宽的SCF(Scalable Coherence Fabric)通路,每条通路具有500G的带宽,实现了两片芯片间高效的数据交换。虽然这两片芯片在物理上是分离的,但借助高带宽的连接,它们在逻辑上实现了无缝互联。SCF技术是基于英特尔的2.5D封装技术,即EMIB(Embedded Multi-die Interconnect Bridge),这种技术已在第四代至强中应用,并在第五代至强中继续发挥其高效互连的作用。
 
第三,性能与能效。在性能能效方面,第五代至强相比第四代实现了显著提升:在常规整数计算方面,根据SPEC integer基准测试,性能提升了21%。对于AI相关负载,性能提升更是达到了42%。这一成就尤为难得,考虑到从第四代至第五代至强均在Intel 7工艺下实现。这21%的提升得益于核心数量的增加,Raptor Cove核心的引入,以及从四芯片到两芯片的封装优化,这些改进既减少了功耗,又将资源更多地投入到性能提升上。DDR频率和LLC容量的增加,也为内存密集型操作带来了更优的表现。这些改进共同促成了第五代至强在性能与能效上的卓越表现。
 
第四,三级缓存(LLC)现在达到了5MB每个模块,总计320MB,使得大部分数据可以直接存储于缓存中,减少了对内存的依赖并提升了性能。为了应对由于缓存容量增大而可能出现的可靠性问题,英特尔引入了新的编码技术DEC和TED,提高了错误检测和纠正能力,增强了系统的容错性。此外,英特尔对大容量LLC进行了节能优化,减少了数据访问时的能耗。
 
第五,内存IO方面,第五代至强处理器的内存速度提升至5600MT/s。这一成就是通过在芯片设计、基板设计以及传输链路的综合优化实现的。引入的4-tap DFE功能帮助减少了码间干扰(ISI),在高速传输中保持了信号的完整性。
 
除了上述五大方面之外,英特尔近年来很关键的承诺就是按期交付。英特尔技术专家指出,“英特尔这两年的产品发布非常密集,有这么密集的路线图,如果无法按期交付,对我们的客户也没有太大意义。我们看到,在去年5月份的英特尔ON产业峰会上,当时我们刚刚发布了第四代至强,现在第五代至强也如期推出,今年在强大的执行力推动下,我们也将按计划发布未来的产品。”
 
总结
 
在这个AI大模型和其他AI应用盛行的时代,英特尔以第五代至强为“祭”,用实力证明了CPU在AI领域的价值。随着AI应用越来越依赖于庞大而复杂的数据处理能力,CPU将依然是算力的重要支柱之一。
 
 
责任编辑:sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论