原来你是这样的至强处理器

2020-08-06 12:24:03 来源: 张亚
此前笔者写过一篇名为《英特尔至强处理器的1998与2020》的稿子,扒了一下至强处理器的诞生与现状情况。
 
在1998年,英特尔第一次掏出Pentium II Xeon(至强)处理器,至强是英特尔引入的新品牌,用作取代Pentium Pro。该产品线直接面向中高端企业级服务器、工作站市场。
 
2020年6月份,英特尔正式发布第三代至强可扩展处理器及全新的AI软硬件产品组合,旨在进一步助力客户在数据中心、网络及智能边缘环境中加速开发和部署AI及数据分析工作负载。
 
刚出生时是顺应互联网时代,如今在数据大爆炸时期,最新的至强到底有什么实力?
 
 
7月29日,英特尔举行了“2020英特尔数据中心产品技术线上分享会”深入剖析了至强可扩展处理器。
 
2017年,英特尔便推出了第一代至强可扩展处理器;2019年是第二代,代号为Cascade Lake。Cascade Lake是一个每平台上可以支持1-8个处理器插槽的系统。2020年是第三代,第三代至强可扩展处理器会有两个产品系列,它们的代号分别是Cooper Lake和Ice Lake,Copper Lake的定位是一个系统支持4-8个处理器插槽,即多路处理器。Ice Lake的定位则是一个系统当中支持1-2个处理器插槽。
 
英特尔技术人员透露,预计明年下半年英特尔会推出下一代的至强可扩展处理器,代号为Sapphire Rapids。
 
 
纵观整个产品系列,第三代至强可扩展处理器是一个承上启下的产品。
 
这款Cooper Lake,用一句话概括就是“专为当今内置人工智能的数据密集型服务而设计”。其中两个关键词就是人工智能和数据密集型服务。
 
人工智能方面,在第三代至强可扩展处理器当中,英特尔进一步升级了DL Boost深度学习加速技术,同时在深度学习加速架构下的VNNI神经网络指令可以支持创新的bfloat16数据格式。结合DL Boost以及bfloat16,以至于新一代的平台相比上一代平台Cascade Lake最顶级的CPU 8280,在做图像分类处理的时候,计算性能可以提高1.93倍。
 
 
计算密集型的应用上,第三代至强可扩展处理器的平台里可以支持更多的CPU内核,也可以支持更高的CPU主频,来提供更多的内存通道数以及更快的内存速度,支持内存的容量也会更高,有了这些更强的计算能力,更大的数据存储能力,对于这种计算密集型的应用,相比于以往的4路平台,我们的计算性能提高了92%。在新的平台上英特尔还支持第二代傲腾持久内存,即傲腾200系列。
 
此外,在新的平台上,针对云计算应用、企业应用的多样性,英特尔还推出了第二代的Speed Select技术,可以让用户使用CPU平台的时候,能够有更多的灵活性来配置他的系统,更好的满足业务需求。
 
 
具体架构如上图,左侧框图是4路平台的示意图,其中包含四个至强可扩展处理器插槽,互相之间通过UPI总线实现互连。该4个CPU插槽之间是以全连接的拓扑结构来实现互连,其UPI通道数相比上一代平台多了一倍。新一代产品的架构中,英特尔将UPI的端口数量增加到6个,两两之间就有两个UPI总线。多一个UPI带来的好处就是有更高的带宽,这样有利于支持更多的CPU内核,支持更大的内存,支持更高的计算速度。
 
内存方面,支持内存通道数每个插槽是6个通道。如组一个4路平台,可以实现24个通道,如果是8路就是48个通道。每个通道是可以支持到最高3200MT/s的速度,也是目前DDR4可以支持的最高速度了。
 
内容容量上,可以支持16GB颗粒技术,基于此单条的内存条如果是用普通的RDIMM就可以支持64GB,如用LRDIMM可以支持256G。如搭配傲腾持久内存,每一个插槽可以支持的最大容量为4.5T。
 
新平台的I/O方面,每个插槽可以支持48个PCIe 3.0通道。
 
此外,新平台搭载了升级后的Lewisburg PCH,代号为C620-A,PCH可以支持USB接口、SATA接口、PCIe的一些连接,另外它集成了ME,支持对平台的管理。
 
 
 
这部分单独说一下人工智能方面的优化。
 
英特尔2017年发布的第一代至强可扩展处理器,代号为Sky Lake,提供了AVX-512的指令集,可用FP32的数据格式做一些深度学习计算。2019年发布的Cascade Lake第二代至强可扩展处理器中,提供了DL Boost技术,DL Boost有VNNI矢量神经网络指令集,可以利用VNNI支持Int8数据格式。
 
今年最新的第三代至强可扩展处理器中,对DL Boost深度学习加速技术进一步升级,VNNI指令集可以支持bfloat16的数据格式。
 
 
以一张小猫图片为例,Int8是指每个数据用8比特来存储,这当中有7位是尾数,有一位是符号位。用这样的格式来存储一张图片,图片细节是缺失的,较为模糊。对于一些人工智能的推理计算而言,Int8最大的好处是计算效率非常高。代价是它的精度会相对比较差一些。
 
另外一个传统的做法就是用FP32,也就是浮点32位的格式来保存数据。FP32有8位保存的是指数,23位是尾数,1位是符号位。如此存储这张小猫的图片就可以清晰看到它的细节。可以来做训练和推理,但计算效率会比较低,因为数据宽度要FP32,计算速度会比Int8慢很多。
 
 bfloat16是取了一个折中,用16位来存取一个数据,其中8位存放指数,7位存放尾数。8位存放指数,就意味着这个数据有一个非常大的数据范围,也就是2的256次方,同时精度是7位尾数,对于一些人工智能的训练和推理而言,7位尾数对大多数模型而言是足够的。同时用8位指数可以提高非常大的动态范围,这对模型收敛性、可靠性是非常关键的。但是这带来最大的好处是计算性能会比FP32提高很多,同时以此来完成训练。用VNNI搭配bfloat16,相比于上一代的基于FP32的基础上做训练,性能提高了93%,在推理方面性能可以提高90%。
 
 
 
英特尔在第三代至强可扩展平台有一个更新技术——Speed Select技术(简称SST),SST是为了解决很多企业客户或者是互联网客户遇到的一个痛点。现在业务的多样性越来越复杂,经常会看到不同业务对硬件有不同的需求,有的业务是希望单线程的性能要尽可能高,但是它并不需要有很多的线程来做并行计算;另外有一些业务希望有很多的线程,同时做并发处理,但是对单线程要求并不高。
 
 
以往对这种不同需求的做法就是量身定制,对第一类的应用去配一个对应的CPU以及它的硬件配置。对于另外一类就需要再选一款CPU来搭配一台新的机器使用。这种情况下的痛点在于如果业务发生变化,配置就显得非常不灵活。
 
另一种情况,随着计算密度越来越高,CPU核心数越来越多,内存越来越大,存储容量越来越高,网络带宽越来越大,一个用户在一台机器会部署多个业务,且多个业务的优先级不一样。在以往传统的平台上,一个CPU当中所有的核心优先级都是一样的,可以使用的资源、跑的频率都是相同的。
 
SST技术就是解决此痛点,在第二代至强可扩展处理器当中已经有了SST技术的早期技术,在第三代至强可扩展处理器当中进一步拓展了SST。SST是一个功能集合,它提供了四种功能模式,包括SST-PP、SST-CP、SST-BF、SST-TF。
 
 SST-PP(Performance Profile),是指一个CPU的供电和散热的边界条件是确定的,边界条件下,根据业务的不同需求可以选配这颗CPU允许使用的核数,在使用相应核数时,会提供对应的频率来让它运行。同时,也可以在另外一种场景下关掉一些核或者是打开一些核,让它工作在另外一个频率上。
 
SST-BF(Base Frequency)和SST-TF(Turbo Frequency睿频),是指在一个CPU当中,比如有20个核,会跑很多不同的应用,有些应用优先级很高,希望它能有更好的基频或者是超频性能,如此,可以核给配置成高优先级核让它们比其他的核的基频或者是睿频频率高几个等级。为保证整个处理器的供电和散热是在边界条件下,其他的核会比高优先级的核温度低一些。
 
SST-CP(Core Power),是指当CPU负载很满,接近供电和散热的边界时,即已经到达上限,CPU一定会降频处理,来保护CPU以及服务器的平台。以往对内核是不会做区别对待的,使用了SST-CP技术,客户可以指定一些核运行优先级的业务,其他的核运行低优先级业务。
 
 
 
整体看第三代至强可扩展处理器,至强可扩展处理器产品命名和上两代一样,采用四位数字加上字母后缀代表一个型号。4位数字第一位“8”代表白金系列,还有其他数字,比如6代表金牌,4代表银牌,3代表铜牌。8系列是白金系列,8300当中的“3”代表第三代至强可扩展处理器,8300系列在Cooper Lake有6款产品。
 
白金系列都可以支持到8个插槽,每个插槽可以最多支持28个内核,超线程打开可以最多支持56个线程,最高的睿频频率可以达到4.3GHz。
 
第三代至强可扩展处理器还有五款金牌处理器——6300和5300,对应的TDP会比白金稍微低一些,核心数最高可以达到24个内核、48个线程。金牌系列可以支持到4路平台,所有的睿频频率也可以达到4.2GHz。
 
第三代至强可扩展处理器的两个关键点就是人工智能和数据密集型的一些应用。可以提供更多的内核、更高的频率,支持更大的内存。对于一些数据分析的应用,相对于上一代的平台性能可以提高98%。对于人工智能,我们借助升级后的DL Boost技术,搭配bfloat16的数据格式,在人工智能的训练性能上相比上一代可以提高93%,人工智能推理方面的性能可以提高90%。
 
针对云计算这种需要虚拟机密度的场景下,每个处理器支持的内核数可以最高到28个核,如果去搭配一个8路平台,可以轻松支持224个物理核,对于这种虚拟化的场景,就可以实现非常高的密度,帮助用户优化TCO。
 
总结,人工智能和数据分析将是未来10年主要的工作负载,而第三代至强可扩展处理器就是为了这两类应用做了优化。第三代至强可扩展处理器可以支持4路到8路的服务器平台,植入了对人工智能的一些优化,可以支持bfloat16的数据格式,产品组合和生态系统合作为用户提供最大的价值。
责任编辑:sophie
半导体行业观察
摩尔芯闻

热门评论