英特尔服务器芯片的反击

2024-06-14 17:14:59 来源: 互联网
最近,英特尔带来了全新一代的XEON6(至强6),开启了公司在服务器芯片市场的新篇章。
 
按照英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立先生在至强 6的发布会上所说,虽然AI成为了数据中心过去几年的热点,但客户在考虑AI性能的同时,也会对数据中心提出新的需求。如效率和TCO、能源、软件通用性、内存带宽的速度和延迟就是大家关注的重点。除此以外,传统云上的微服务,也是大家关注的另一个目标。
 

 
“不同客户有着不同的诉求,所以在路线图上,我们设计了两个产品线:性能核P核和能效核E核,以满足不同市场的需求。”陈葆立接着说。据介绍,P核针对的是设计、大数据、AI推理和游戏等对单核的性能要求比较高的应用,E核优势则是在微服务、云原生相关的一些工作负载,或者比较简单的数据库或网络应用。
 

 
这次发布的Xeon 6处理器能效核新品(E-Core)6700E,则是英特尔至强 6的首款产品。
 
新芯片,新设计
 
和上一代产品相比,新芯片拥有很多的不同,这首先就体现在其设计上。
 
如下图左所示,英特尔在第五代至强上采用了EMIB技术将两个芯片巧妙组合到一起,突破了传统掩膜尺寸对芯片尺寸的限制,使得单个处理器得以集成更多复杂的逻辑功能,从而大幅提升了性能和功能性。
 

 
但到了第六代至强,如上图右所示,英特尔并不是并不是简单地把芯片一分为二,而是按照功能块进行划分:中间是计算die,上下两部分是I/O die,I/O die更多是和高速I/O相关,而且对密度要求并不高,所以我们使用Intel 7这样相对比较成熟的工艺来做I/O die,而计算die对计算密度及核心逻辑密度要求比较高,则采用最新的Intel 3制程工艺。


 
英特尔资深技术人员介绍说,要实现这样一个模块化设计有几个关键要素,首先是要有Fabric技术,能够把计算 die和I/O die有机结合起来;二是集成多个die的系统架构,即面对多个芯片时,也能通过Fabric技术无缝地将它们连接成一个整体。在英特尔看来,这种设计不仅优化了数据传输效率,还极大地扩展了处理器的功能和性能。而能实现这样的连接背后,EMIB功不可没。“EMIB技术可以实现非常高密度的芯片之间的桥接,能够让die和die之间达到1TB/s的速度,这样可以使跨die连接做到带宽无损通信。”英特尔资深技术人员强调。
 


具体而言,在计算die方面,据介绍,这个die由几个部分组成,其中中间是核心部分(Core),包括L1和L2 缓存,CHA是缓存以及与内存访问相关的地址控制,LLC是L3缓存,最后是横向和纵向的Mesh Fabric,而在die的左右两边则分别是DDR或者是MCR内存控制器。
 
英特尔资深技术人员表示,这个架构的好处是对每个计算die内部,其核心和缓存以及内存访问都是在比较小的范围中,所以它可以达到比较低的访问延迟。而采用多die形成类似像6700的XCC,则多个die之间又能够形成一个无缝连接,用很小的延迟,可以实现很好的性能扩展。
 


来到I/O die上,则拥有包括PCIe、CXL和UPI在内的多种IO接口以及类似QAT、DSA等的加速单元。当然,这个die同时还具备些一些其他功能(如RDT这样的资源调度功能)。“I/O die和计算die是通过Fabric,以及物理上通过EMIB相连。”英特尔资深技术人员强调。
 
值得一提的是,在至强6上,英特尔首先导入了CXL 2.0功能,CXL 2.0为Type 3设备引入了增强功能,包括链路细分、QoS控制等,从而为Type 3设备客户特别关注的使用场景,提供了更全面的功能特性。
 

 
其次,E-Core的6700E还拥有144个不超线程的内核,这是该系列处理器的又一个不同点。
 
熟悉英特尔的读者应该清楚,“超线程”(SMT或Hyper-Threading)是英特尔已经使用了超20年的技术,能允许一个物理内核在流水线中执行多条指令,本质上提高了超线程芯片的多线程性能,于是这也成为了公司芯片的特征之一。
 
但是和真正的多内核芯片相比,这个提升比例还是有差距。尤其是在其他竞争对手过去多年通过大小核和多核设计获得了市场的之后,英特尔最终在新的6700E上采用了不超线程的多核设计。
 

 
英特尔市场营销集团副总裁兼中国区行业解决方案和数据中心销售部总经理梁雅莉女士也解析说:“物理核单线程设计能非常有效地减少资源争抢。在满足单线程任务的性能需求的同时,又能够避免任务运行时的性能抖动,此外,还通过超多核心满足了大规模分布式的总并发需求。”
 
“这是云计算和互联网等客户对数据中心处理器算力有更大需求的结果。”英特尔资深技术人员接着说。“对于数据中心客户来说,选择核心密度高的处理器还是选多个处理器做组合,是两方面的考虑。”英特尔资深技术人员表示。如他所说,如果能实现更多的核心数量,大家就会尽量去选择,因为从整体的TCO角度来看,这样的做法总体成本更低,TCO更优。但是另一方面,它也增加了核心数量的制约,当核心密度过高,是否会造成一个更大的故障隐患半径,或者是调度运维是否能够让所有的核都得到利用。
  
“多年来,至强产品的质量可靠性和软件能力提升,大家都有目共睹,也在与业界共同进步。业界普遍有意愿也有能力逐渐提升核心密度,所以目前来看,实现每个CPU有64个核心或者更高,是存在市场需求,也是有技术实力可以实现的。”英特尔资深技术人员强调。
 
金山云高级副总裁刘涛则从客户的角度阐述了这种设计的优势。“这种单线程的CPU很有确定性,因为其每个线程都是独立在核上跑,可以通过如锁核或者线程技术确保对业务负载有一个确定性的线性预期,这是两者之间不同的点。”刘涛说。
 
又因为英特尔为6700E也提供了多个选择,让客户在芯片选择上有了更多空间且更有针对性。
 

 
高性能,高期望
 
在这样的设计加持下,E核心的6700E在客户端的表现如有神助。
 
如图所示,与第五代至强处理器的比较,其整数吞吐性能(Integer Throughput)同比提升了25%,在媒体编解码、网络防火墙等业务上均有20%、30%甚至高达40%的提升。相较于性能方面的提升,其能效提升更加显著。如图所示,绝大多数业务均有30%、40%甚至更高的能效提升,这正是英特尔设定能效核处理器的目标之一。
 


除了从性能密度上带来提升以外,英特尔在新一代能效核的6700E上带来了计算密度的提升。具体而言就是在一台服务器、一个机柜、一个数据中心上,提供了集成更多计算力以及更多计算核心的可能,使其能够运行大规模分布式工作负载。
 
英特尔至强能效核产品线的总经理Ryan Tabrah在演讲中举例说,假设我们有一个标准配置为15KW/的机架,按照典型的中型数据中心规模,大约有200个机架。但如果有了更高效的处理器,我们可以将机架的数量缩减到66个,这将切实地帮助包括云原生客户以及现有的基础设施客户在内的客户解决问题并推动业务升级。
 

 
在与第二代的至强相比时,至强6更是获得了3倍以上的性能提升,同时其能效方面也有超2倍的提升,每个处理器的热设计功耗(Thermal Design Power,TDP)也均在上升。媒体转码吞吐量提升高达4.2倍也是新的至强不得不提的又一个亮点。
 

 
从英特尔对至强 6的介绍上看,这次E核产品的发布只是一个开胃菜,公司即将在下半年推出推出的6900E和明年上半年推出的新品,将给整个至强产品线带来另一个维度的震撼。据了解,6900E的单颗处理器就可提供高达288个物理核,这会让这场围绕服务器的核心竞赛进入白热化阶段,英特尔也将先拔头筹。


 
英特尔介绍说,配备性能核的6900使用的是跟XCC相同的计算单元,但数量更多,所以从计算核心数量来说,配备性能核的6900的核心数量大约增加了50%。而能效核是采用了和配备能效核的6700同样的计算单元,只是数量上从1片增加到2片,这就使得其核心数量从144个增加到了288个。
 
“虽然这是两个不同的至强6产品(一个是性能核,一个是能效核)上,但对所有的软件开发者来讲,他们看到的一如既往的还是我们的X86核,所以对软件来讲完全是可以互通的,对于我们生态来讲也是一件非常好的事情。”陈葆立表示。“两者都使用了兼容架构,并共享软件栈。对我们的客户来说,这意味着在接下来的一两年时间平台是非常稳定的,他们能够拥有充足的部署时间和弹性,选择最适合的型号。”陈葆立接着说。
 
正如英特尔市场营销集团副总裁兼中国区总经理王稚聪先生说,此前,英特尔提出过“四年五个节点”计划。现在,随着英特尔至强6的发布,再次印证了英特尔正以一个稳定的节奏推进该计划。全新的处理器基于Intel 3制程工艺,之后是Intel 20A、Intel 18A,以及最近推出的Intel 14A,英特尔正以“四年五个节点”的节奏稳步推进摩尔定律。
 
“展望未来,英特尔会将节点进行创新,并进一步优化性能、功能,以及包括3D封装技术在内的先进封装。在部分成熟的领域,我们会保留其产能,通过成熟节点和先进节点来共同推进我们的代工业务。”王稚聪重申。


责任编辑:sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论