腾讯与英特尔,掀开合作新篇章

2024-09-10 18:33:25 来源: 互联网
作为一家成名已久的芯片巨头,英特尔在很多领域拥有领先的优势,这是不争的事实。
 
从相关介绍我们也得知,除了经典的X86 CPU以外,英特尔在GPU、网络芯片和ASIC方面的投入,让公司能够在不同的市场找到新的机遇。如在近年来大发展迅猛的AGI市场,英特尔业已成为其中不可或缺的重要角色。
 
在日前举办的2024腾讯全球数字生态大会(以下简称:生态大会)上,英特尔技术专家就透露,现在大部分厂商做训练和推理所使用的处理器还是第四代和第五代的英特尔至强处理器,这足以证实公司在这方面的实力,这也促使公司推出了第六代至强处理器和迭代更多新技术。
 
也正是在这些实力雄厚芯片的支持下,与腾讯合作了20年的英特尔,掀开了双方合作的新篇章。
 
软硬结合,英特尔的底气
 
英特尔市场营销集团副总裁、中国区云与行业解决方案和数据中心销售部总经理梁雅莉日前在生态大会的演讲中直言:“随着ChatGPT的惊天问世以及Sora的到来,市场对基础设施算力的要求不断提高,进而引发人们对其的思考——在算力领域,那我们到底应该以什么样的方式去支持到各行各业的发展。”
 
面对这些问题,英特尔从基础技术的创新和基础算力的思考去研发公司的产品。这就催生了英特尔最新一代的至强6。
 

 
据介绍, 至强6是一个通过模块化SoC架构设计来无缝集成的通用计算平台,其每一个封装里面都有两个I/O Die和包括性能核(P-CoreTile,最大支持128个核心)和能效核(E-Core Tile,最大支持288个核心)在内的计算Tile(计算单元)。虽然这两个计算Die是不一样的,但它们可以共享包括I/O Die,I/O Die和CPU Die在内的整个封装,而相互之间的互联则是通过能提供高速和低延迟的EMIB技术进行互连。
 
除了通用的计算能力,至强6在在AI方面的表现也非常不俗。
 
数据显示,在AI相应的应用负载上,至强6性能有2-3倍的提升,在内存方面,这一代至强芯片可以支持880MHz的MCR,让整个内存带宽有2.8倍的提升。这对AI的推理,特别是第二级token延迟的反应速度有极大的好处。
 
在计算以外,存储也是英特尔关注的一个重点。为了保证数据的高效流转并达到我们所需的安全和合规性,英特尔在至强芯片上还提供了多样的硬件加速器,用于做数据迁移的加速器DSA(Data Streaming Accelerator)和用于压缩和加密的硬件QAT就是其中典型的两个范例;此外,英特尔还提供了一个把数据从一个高性能的存储节点同步到另外一个高性能存储节点NTB技术以及被广泛看好的CXL技术;英特尔还有一个叫VMD(Volume Management Device)的集成控制器,可以配合一个名为VROC的软件,提高数据可靠性,支持SSD盘的热插拔和有效隔离。
 
在英特尔看来,这个采用共享硬件平台设计的处理器让客户的部署更加简化,其在管理层面也更加方便。又因为软件的一致性,这就意味着产品会通用共享一套操作系统和固件,简化终端客户的开发流程。
 
此外,更重要的是,拥有这些领先性能优势的至强6还能降低整体拥有成本(TCO)和机架使用率以及机架的密度。据介绍,如果想在同样的速度下完成同样的工作负载和媒体流处理,较之第二代英特尔至强,用至强6可以实现3:1的替换比。即原来完成一个任务需要200个机架,现在只需要66个机架就可以完成。这样的设计除了节省空间之外,还能节能减排。以4年的服务器使用周期来看,则可以节省80K MWh的电力,减少二氧化碳排放3.4万吨。
 
如文章开头所示,为了让客户能够获得更好的系统体验,英特尔提供了多样化的硬件支持。例如在网络方面,英特尔就提供了高性能的RDMA网,当中就包括用于卸载存储网络的专门的产品IPU,其他诸如GPU等硬件的支持也不用多言。
 
正是因为有了这些领先的硬件,能让英特尔在当前的AI时代信心十足。但英特尔强调,这些领先的硬件加速器,再配合公司的软件,则可以获得更好的收益。
 
对于任何一个系统来说,硬件只能证明产品有执行相关任务的能力,但要使其跑起来且跑得好,那就是需要软件做全天候的服务,这也正是英特尔如此重视软件的原因。
 
例如存储软件方面,除了上面谈到的配合VMD的VROC以外,英特尔在软件生态上还有很多投入。例如用于存储数据,专门处理EC、CRC压缩的ISA-L库;存储过程当中需要加密的一些加速库(像MD5、AES、Hash等ISA-L Crypto库);另外,还有可以提供用户态存储、提供端到端存储服务的SPDK库以及针对AI、HPC的下一代的高性能存储系统DAOS。
甚至在Ceph的可扩展分布式存储系统当中,英特尔也在其中贡献着重要的力量。
 
来到全民关注的AI方面,英特尔在软件生态方面投入更庞大。
 
一直以来,英特尔在软件生态方面的表现都非常好,公司也已经连续N年在开源社区里贡献率排名第一。特别是在AI方面,英特尔几乎提供了所有的端到端AI解决方案。具体而言,则包括了底层的虚拟化,上层的Kubernetes以及更上一层的、类似oneDNN、oneMKL、OpenMP等的核心算子库。到类似TensorFlow、PyTorch和OpenVINO等框架方面,英特尔平台也都是默认支持的。
 
甚至在AI行业当前非常火热的Hugging Face方面,英特尔都与其建立了非常深入的合作,能轻易地拿到最新的模型,在英特尔芯片上取得最新的性能。
 
通过软硬结合,英特尔获得了客户的高度认可,腾讯就是其中最值得一提的一个。
 
携手腾讯,赋能未来智算
 
对于任何做算力和云的厂商来说,AI是当下最热的、无法绕开的话题。这也驱使他们将工作重心放在打造面向未来的智算系统上。换而言之,在数字化转型的浪潮中,智算未来正在为各行各业打开新的机遇之门,而灵活的云服务也在进一步推动着行业的快速发展。
 
这时候,如何能打造更坚实的基础设施,就成为了整个行业关注的重中之重,英特尔也正在以更全面的产品组合和解决方案为之精心准备。在日前的腾讯生态大会上,双方更是宣布了新一轮的合作,为智算未来创造更多的可能。腾讯云亦预告,即将推出搭载英特尔至强6处理器的新一代云实例。
 
“我们将在全新的星星海自研服务器以及网络架构升级的加持下,在社交媒体、游戏、数据库、短视频等诸多应用场景中实现全面的性能提升。其中,腾讯云也将英特尔至强6处理器应用到其新一代自研服务器架构中,将其整机性能大幅提升并减少故障率的同时,实现不同配置之间免工具设计的灵活改配。”腾讯方面强调。
 
面对AI大模型迅速发展过程中带来的规模和复杂性,腾讯云也需要打造向量数据库,通过集成向量化功能、文本切分以及多级优化,提升检索召回率,支持百万级QPS毫秒级查询延迟,更好地服务于大模型的数据处理。这时候,英特尔新一代的至强处理器就发挥了重要作用。据介绍,利用处理器内置的英特尔®高级矩阵扩展(英特尔 AMX)加速向量化模型,能使性能实现大幅提升,同时也为向量搜索过程提速。
 
与此同时,英特尔处理器上集成的英特尔数据流加速器2.0(英特尔 DSA 2.0)、支持Compute Express Link 2.0 (CXL 2.0)等举措,能够协助腾讯云优化数据移动和转换操作,提高存储、网络和数据密集型工作负载的性能。
 
在游戏产业迎来前所未有的变革之际,游戏用户群体对于兼具高质量画面、复杂剧情和高度互动性的电子游戏的期待与日俱增,随之而来的则是对复杂算力及其高稳定性的更强烈需求。英特尔至强处理器凭借出色的单核架构高性能、内存访问低延迟以及多核稳定扩展等特点,成为腾讯游戏服务端的优选平台。
 
以《开心消消乐》为例,基于第五代英特尔至强可扩展处理器的腾讯云实例S8 ,在相同的数据精度下,能够将代际性能提升1.37倍,而在启用了英特尔 AMX 将模型从 FP32 转化为 BF16 后,其推理性能提升 3.44 倍,同时具备更高的经济性与灵活性,是游戏企业拓展AI应用的理想选择。
 
通过和英特尔的深度合作,基于英特尔至强6处理器,并经过大量的研究和论证,腾讯云提出了一个非常具有竞争力、非常灵活多变,且可扩展性极强的架构。又因为该架构是模块化的设计,所以可以通过不同的模组组合起来形成如计算型、多卡型、多盘型等各种各样不同的配置。而且,在各个不同配置之间,可以实现非常灵活的改配。
 
“这些改配甚至不需要任何工具,可以大幅度提高改配效率,缩短改配的时间。”腾讯云方面表示。展望未来,他们也强调,会和英特尔持续合作,为公司内部和外部的客户带来更多有价值的产品,和客户一起实现共赢。

责任编辑:Ace

相关文章

半导体行业观察
摩尔芯闻

热门评论