英特尔至强6性能核,“强”在哪里?

2024-09-30 12:14:40 来源: 杜芹

英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立手握至强6性能核
 
前言:“重回巅峰”、“一芯多用”、“CPU推理最具商用价值”这些是业内客户对英特尔至强6性能核的高度评价。两年前,一个主流服务器所搭载的CPU只有24-48个核,如今,至强6一跃已经能够实现128核。至强6的这一飞跃,不仅刷新了业界对通用CPU的认知,更标志着英特尔在高性能计算领域的实力回归。
 
自今年6月份以来,英特尔陆续发布了有史以来最强大的至强处理器——至强6“能效核(E-Core)”和“性能核(P-Core)”,也让通用CPU在AI推理市场中的声音越来愈多。尽管现在很多的AI负载并不是跑在CPU上面,而是跑在GPU上面,但是有一个事实是,现在所有的AI服务器或者加速系统,绝大部分的机头使用的都是英特尔CPU处理器。至强6处理器的发布,无疑将为AI加速系统提供更优机头CPU,也为英特尔赢下更多AI市场再添新砝码。
 
至强6性能核,更“强”在哪里?
 
本次英特尔至强6性能核处理器新品发布会的Slogan是“业务为先,至强更强”。那么,首先,至强6性能核,究竟强在哪里?
 
据英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立的介绍,英特尔至强6性能核处理器与上一代CPU相比,在四个方面得到非常大的提升,分别是计算密度、内存容量、数据处理和能效优化。
 
近日宣布上市的至强6900P系列处理器(代号Granite Rapids-AP),最高配备128个内核,支持高达每秒6400MT的DDR5内存、每秒8800MT的MRDIMM内存、6条UPI 2.0链路(速率高达每秒24 GT),96条PCIe 5.0或64条CXL 2.0通道、504MB的L3缓存,支持FP16数据格式的英特尔® 高级矩阵扩展(英特尔® AMX),可为AI和科学计算等内存带宽敏感型工作负载提供MRDIMM选择,且新增对CXL 2.0的支持。
 
除了这些冰冷的数字以外,我们从英特尔至强的业务合作伙伴中听到了很多真知灼见。
 
新华三集团计算存储产品线副总裁刘宏程一针见血的指出了至强6性能核,三个方面的惊艳特性:
 
首先,从核心性能来看,至强6性能核的最大核数实现了质的飞跃,相比之前的产品,其核数至少提升了两倍。尤其是6900P系列(代号Granite Rapids-AP)能够达到128核。
 
宁畅副总裁兼首席技术官赵雷对其的评价是“重回巅峰”,这不仅体现在核数上的增加,而且单核性能提升了1.2倍。在功耗方面,上一代平台所需电量是350瓦,这一代虽然需要500瓦更多的供电,但至强6在增加30%功耗的情况下,算力却拥有了双倍提升,平均每瓦性能提升高达1.6倍。这是一个非常惊人的性能提升幅度。最终能够在同等性能水平下平均节省30%的TCO。
 
其次,新产品在平衡性方面展现出了更多优势。特别是AMX技术的引入,为行业带来了显著的进步。随着行业的快速发展变化,单一通用解决方案已难以满足所有需求,未来计算领域,尤其是与AI相关的推理能力,将成为必需品。至强6通过AMX技术,在推理性能上实现了显著提升,包括INT8、BF16、FP16等多种精度上的优化,使得客户无需额外投资即可享受AI推理带来的便利,这无疑将推动市场向更加融合的方向发展,即所有服务器都将具备AI强化的功能。
 
 
 
刘宏程指出,过去我们常常区分“通用服务器”和“GPU服务器”,但在这一代至强6服务器上,英特尔实现了一个融合的基础设施,即能够同时兼顾通用计算和GPU加速的需求。这种融合将加速各行业对新技术应用的推动,因为用户不再需要在不同类型的服务器之间做出选择,而是可以更加灵活地应对多样化的计算需求
 
最后,从硬件层面来看,内存技术的革新也是至强6的一大亮点。随着核数的增加,对内存的需求也随之提升。MRDIMM技术的引入,有效提升了内存的带宽性能,使得数据传输更加高效。MRDIMM是业界备受关注的领先内存技术,利用组装其上的数据缓冲区,实现两个列的同步操作,从而允许一次向 CPU 传输 128 字节的数据,而传统 DRAM 模块一次传输64字节。仅仅是通过一个更快的内存,其在科学计算、AI等领域能够实现1.2-1.3倍的提升。
 
 
 
陈葆立分析到,MRDIMM是内存更快传输的技术,而更多更大的内存则通过CXL来实现。至强6性能核使用了CXL2.0,CXL 2.0 支持多种设备类型(Type 1、Type 2 和Type 3),且可向后兼容 CXL 1.1,能够帮助客户突破物理极限,现在的机器可能只能插8条或者12条内存,通过CXL扩展,可以在数据库或者大内存的场景里支持更多、更大的内存。
 
刘宏程进一步指出,如果从实际应用上来看,如同前几代产品一样,互联网行业可能会是最先感受到并快速采用新技术的领域。然而,与以往不同的是,由于这一代至强6服务器性能提升并非细微的改进,而是翻天覆地的变化,这可能会改变用户以往“再等等”的观望心态。因为这种显著的性能增长有望加速整个行业向新一代技术切换的进程。
 
综上所述,英特尔至强6性能核处理器,拥有更强大、双倍的内核,更快内存,更大内存,更安全,也更适合AI。为何会更适合AI?
 
百模大战逐渐收敛,CPU推理最具商用价值
 
“大模型经过了一年多热火朝天的发展之后,虽然大模型规模不断扩大,从40B到400B,甚至更大,但是对于行业用户来说,他们可能并不需要如此庞大的模型。许多行业用户实际更倾向于10B以下的行业专用模型,并在这些模型中构建专属于他们行业的知识和数据库。现在越来越多的公司现在都是在看落地和行业应用情况。除了一些显而易见的方案,如智能客服系统,这些系统相对容易部署之外,许多公司正在进行初步尝试。而在这些初期尝试中,通用的硬件最为方便。”陈葆立指出。
 
“实际情况也是如此,我们的客户已经用CPU测试了Llama2和Llama3的推理功能,功能是足够应对的。而随着至强6性能核的推出,我们希望能够为企业提供基础设施,帮助他们在尝试私有模型或私有知识库时,能真正了解如何在企业内部利用大型模型进行AI创新。”陈葆立进一步指出。
 
超聚变服务器产品总经理朱勇认为,诚然,大模型训练是非常耗费整个算力的投资(包括硬件的成本、供电部分),但是有一点需要注意的是,大模型训练的变现都是在行业的推理侧。ChatGPT大语言模型爆火以来,“百模大战”成为发展业态。朱勇指出,现在这个情形基本上已经逐渐收敛,主要是面临着投资、选型还有各种方面的多元素挑战。但是这个挑战最后都会归结为商业变现问题,他认为一个AI应用成熟的落地离不开模型的推理而基于通用场景的CPU推理,给客户带来了真正的商业价值
 
朱勇对至强6性能核的评价是“一芯多用”。他进一步解释道,传统意义上,大家认为CPU就是做通用计算的,但是现在CPU已经发展到可以去做一些10Billion左右的这种大模型的推理场景,而且这为客户带来的优势是能够降低TCO。因为我买一台通用服务器在行业客户上,我既可以去做通用计算、又可以做边缘侧的推理。
 
刘宏程也肯定了大模型推理这个市场。“实际上,在AI技术的实际应用落地过程中,用户感受最直观、最强烈的往往是推理环节的性能表现。虽然过去我们一直在强调大模型训练的重要性,但真正到了企业应用的层面,推理的需求规模往往是训练需求的5到10倍。这与我们当前观察到的市场趋势有所不同。在行业中,虽然可能存在几个全球通用的模型,但这些模型在应用到具体行业时,往往需要结合企业自身的私有数据进行私有化的微调与推理,这些对于企业来说才具有更高的价值,因为通用大模型的投入成本过高,很多企业难以承担,而且投入与产出的时间比也较长。在这种情况下,我们认为融合架构比单一GPU服务器更适合那些私域小规模的训练和推理任务的企业需求。因为融合架构的投资回报率更高,能更有效地利用资源。”刘宏程表示。
 
“当推理需求成为主要应用场景时,至强6处理器凭借其出色的推理性能,可能成为一个更加经济高效的选择。因为相比其他方案,它能在保证性能的同时,显著降低企业的投资成本。”刘宏程还谈到。
 
关于“百模大战”的现象,刘宏程认为,能够在这场竞争中生存下来的通用大模型数量将非常有限,可能不会超过一只手能数得过来的数量。但是整个训练规模的需求仍然非常庞大,这将持续推动整个行业的发展。而当所有的通用模型和私域模型都达到可用并准备变现的阶段时,我们预测将会有一个规模达到训练市场5到10倍的推理市场等待着我们。这个市场目前才刚刚起步,因此我们对整个行业的发展前景持非常乐观的态度。
 
英特尔市场营销集团副总裁、中国区云与行业解决方案和数据中心销售部总经理梁雅莉也补充道,可能在短期或中短期内,市场焦点会集中在一些大型通用模型上,这也可能是市场发展的自然趋势。然而,对于AI来说,更广阔的应用空间实际上是在推理场景中。在未来的市场环境下,“性能”和“成本”必须是一个平衡的考虑。尤其是对于推理这样的场景,只追求性能是欠妥的。企业最终要平衡的是在这样一个场景下耗费的算力成本是多少,以及它如何转化为企业的商业价值。最终,大家都需要进行成本效益分析。至强6处理器正是基于对未来趋势的洞察而诞生的。
 
 
英特尔市场营销集团副总裁、中国区云与行业解决方案和数据中心销售部总经理梁雅莉
 
AI时代,能耗挑战不容忽视
 
英特尔除了介绍至强6性能核的强大之外,没有忽略更强算力需求给数据中心带来的前所未有的能耗和散热挑战。
 
赵雷谈到,至强6由于它500瓦的功耗,客观上推动了液冷的发展和快速落地。过去350瓦或者是更少,大家说风冷就没问题。但是从这一代开始,客观情况下如果你依然想实现算力密度或者想实现保有过去整个基础架构的模型,很多情况下液冷是必然要上的。它同时带动的冷板、浸没,以及更多带动整体液冷基础设施的进步。不管是风液CDU、液液CDU,还是再往外的管路,包括户外的冷卡、冷站,整个这一套环境都会跟着变,变了之后,马上供电就会变成瓶颈。所以电力基础设施也会跟着再改。所以它带来的整体基建的效果和GDP的拉动都是非常明显的。
 
对此,英特尔发起了英特尔中国数据中心液冷创新加速计划,不仅携手行业伙伴突破油类单相浸没散热能力有限的技术难题,也进一步推动冷板式液冷整体解决方案验证,同时还联合生态力量推动UQD互换验证测试,从技术创新、构建统一行业标准两方面“双管齐下”,降低数据中心液冷使用成本、增强可靠性,为液冷技术的规模化应用保驾护航。
 
 
 
写在最后
 
AI训练和推理市场方兴未艾,英特尔至强6处理器系列的发布,标志着通用CPU自身性能达到了新的高度,也让CPU在AI领域焕发新的生机。随着行业对AI应用的不断探索,CPU和GPU将形成互补,共同推动AI产业的繁荣发展。
责任编辑:sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论