[原创] Arm服务器芯片终于苦尽甘来?
2019-12-05
14:00:17
来源: 半导体行业观察
来源:内容由半导体行业观察(ID:icbank)编译自「
th
e
nextplatf
orm
」,作者:Timothy Prickett Morgan,
谢谢。
在亚马逊昨天发布了新一代的Graviton之后,我们终于不必再等待任何传统的和新贵的服务器芯片制造商说服服务器合作伙伴来构建和支持机器, 也有机会去测试设计良好的Arm服务器芯片在数据中心中的性能。而软件合作伙伴也可以加入并证明其堆栈和应用程序可以在芯片上运行。因为亚马逊网络服务本身就是一个生态系统。
他们拥有很多自己的堆栈,因此它可以像在拉斯维加斯的re:Invent舞台上那样将Graviton2处理器推到台前,并敢于Marvell,Ampere和其他关心尝试跟上。对于Marvell和Ampere等其他供应商来说,一扇新的大门似乎也在正在缓缓给他们打开。
在昨日的大会上,AWS首席执行官安迪·贾西(Andy Jassy)对外发布了他们借助Annapurna Labs 创建的第二代服务器级Arm处理器之后,也同时向英特尔和AMD明确表明,他们不再需要大量的X86处理器来运行大量工作负载了。
把X86芯片当做是遗留的工作负载( legacy workload ),这很有趣,因为这要付出高昂的代价,因此要拥有或租用也要付出高昂的代价。但AWS现在是基于自身基础架构上建立的平台,虽然这这处于初期。
但是如果有一半的大型超大规模开发者和云构建者都效仿并构建了Arm Holdings Neoverse芯片设计的定制(或勉强定制)版本,且具有相当积极的节奏和性能路线图,那就意味着将有一部分X86服务器芯片会在很短的时间内从X86迁移到Arm上面。
微软毫不掩饰地希望将其服务器容量的50%转向Arm处理器,并且最近已开始在其“ Olympus”机架式服务器内部部署Marvell的“ Vulcan” ThunderX2处理器。微软并没有在对外透露其部署的范围,但是根据我们的猜测,这个数量大约为数万个,这相较于其数百万的服务器来说还是不值得一提。
谷歌同样已经涉足了相对大型的Power处理器,并且已经进行了一些部署,但是我们同样不知道其规模。有传言称谷歌曾经是高通“ Amberwing” Centriq 2400处理器背后最大支持者。也有传言说他们可能会基于Arm架构设计自己的服务器和SmartNIC处理器,但是鉴于许可要求,Google似乎有可能直接使用开源RISC-V指令集来介入这个领域。
华为旗下的海思则推出了其64核Kunpeng 920,我们认为这是他们基于Arm“ Ares” Neoverse N1设计的一款芯片,目标是面向中国的超大规模客户,云构建者,电信公司和其他服务提供商。
实际上,我们认为亚马逊的Graviton2看上去很像Kunpeng 920,因为他们很可能从Arm Ares的设计中大量借鉴。与所有Arm其他设计一样,它们不包括存控制器或PCI-Express控制器,这些必须授权于第三方或者自己设计。
去年的这个时候,AWS推出了第一个笨笨的Graviton Arm服务器芯片,该芯片具有16个运行在2.3 GHz的vCPU。由台积电16纳米工艺实施的。AWS从来没有讲过他们的Graviton处理器是否具有16个不带SMT的内核或8个带双向SMT的内核,但我们认为它不具有SMT,而仅仅是一个库存的“ Cosmos”内核。这本身就是经过调整的Cortex-A72或Cortex-A75内核。
AWS的EC2计算设施上的A1实例可支持多达32 GB的主内存,并通过其服务器适配器提供高达10 Gb /秒的网络带宽,以及高达3.5 Gb /秒的弹性块存储(EBS)带宽。我们怀疑该芯片只有一个带有两个通道的内存控制器,类似于针对超大规模处理器的Intel Xeon D。
“在AWS的历史上,一个重大的转折点是我们收购了Annapurna Labs,这是一群由以色列非常有才华和专业的芯片设计师和制造商组成的团队。他们能够帮助我们打造更好的芯片,为大家提供更多的服务” Jassy在re:Invent的开幕主题演讲中解释道。
尽管包括我们在内的许多公司已经使用X86处理器很长时间了,英特尔也是非常紧密的合作伙伴,同时我们也越来越多地开始使用AMD,。但如果我们想为您提高性价比,这意味着我们必须做一些创新。为此我将这个任务交给了Annapurna Labs,并告诉他们我们想构建怎么样的芯片。
我们认为他们可以在性能和真正重要的方面提供有意义的差异,我们认为他们也确实在广泛地做到这一点。他们推出的第一个芯片是基于Arm的芯片,我们称为Graviton芯片,该芯片是我们去年在A1实例中发布的,这是云中第一个基于Arm的实例,这些实例旨在用于扩展工作流,因此是容器化的微服务和Web层应用程序之类的东西。”
A1实例有成千上万的客户,但是正如我们过去和现在所指出的那样,就吞吐量而言,它并不是一个出色的服务器芯片,至少与同类产品相比没有可比性。但是AWS知道这一点,我们其他人也知道。这仅仅是一个试水。
“当我们启动A1实例时,我们想知道三个问题,” Jassy继续说道:
第二个问题是:
合作伙伴生态系统是否会为相关用户提供基于Arm的实例所需的工具链支持?
第三个是:
我们能否在此Graviton芯片的第一个版本上进行足够的创新,以使您可以使用基于Arm的芯片来处理更广泛的工作负载?
在前两个问题上,我们感到非常惊喜。您可以在幻灯片上看到这一点,徽标的数量,客户的负载以我们未曾想到的方式在A1实例上运行,并且合作伙伴生态系统也确实以非常重要的方式加强并支持了我们的基本实例。
第三个问题-我们是否真的可以在该芯片上进行足够的创新。坦白说 我们目前是不确定,这可能还需要一段时间。
据我们所知,Graviton2更像是一个吞吐量引擎(throughput engine),并且看起来也可以在核心级别与现代X86芯片保持一致,而单线程性能是衡量标准。
Graviton2芯片拥有超过300亿个晶体管和多达64个vCPU的。我们认为这些是真正的内核,而不是线程数量的一半。我们知道Graviton2是7纳米Neoverse N1的变体,这意味着它是Arm为帮助客户加快速度而开发的“ Ares”芯片的衍生产品。
根据Arm的说法,Ares Neoverse N1的最高速度为3.5 GHz,大多数被许可方都在2.6 GHz至3.1 GHz之间的内核中驱动内核,但这些内核没有内置多线程同步功能。
Ares内核还具有64 KB的L1指令高速缓存和64 KB的数据高速缓存,并且跨内核的指令高速缓存在芯片上是一致的。(这很酷。)
另外,Ares设计还为每个内核提供512 KB或1 MB的私有L2高速缓存,并且该内核组合具有特殊的高带宽,低延迟管道,称为Direct Connect,将内核链接到网状互连,该互连将片上系统的所有元素链接在一起。
按照Arm将Ares组合在一起的方式,它可以在单个芯片或整个小芯片中扩展多达128个内核。64核变体具有八个内存控制器和八个I / O控制器,以及32个核心对以及它们的共享L2缓存。
我们认为Graviton2看起来很像64核Ares参考设计,亚马逊只是在其中添加了一些功能。其中一项功能是内存加密,它是通过在启动时在服务器上生成的256位密钥完成的,并且永远不会离开服务器。(尚不清楚使用哪种加密技术,但可能是AES-256。)
亚马逊表示,Graviton2芯片的性能是首款Graviton芯片的7倍,浮点性能是2倍。
第一个统计数据在芯片级别有意义,而第二个统计数据必须在核心级别才有意义,否则就没有意义,但AWS在这方面含糊不清。从16核升级到64核可为您提供4倍的整数性能,而从2.3 GHz升级到3.2 GHz则可为您提供39%的性能,而一直上升到3.5 GHz则可为您提供另外的50%的性能。
最重要的是,整体提升是原来的6倍。剩下的就是缓存体系结构,每时钟指令(IPC)和整个层次结构的内存带宽方面的改进。将浮点向量的宽度加倍很容易且足够正常。
AWS进一步表示,Graviton2芯片的单核高速缓存是前者两倍大,并具有额外的存储通道(根据定义,它几乎必须如此),并且这些功能一起使Graviton2的存储速度比第一代Graviton快5倍。
坦率地说,我们感到惊讶的是它的速度并没有超过10倍,尤其是如果Graviton2具有八个以3.2 GHz运行的DDR4内存通道时。为此我们对这个感到怀疑。
AWS将在当前M5实例上运行的vCPU与即将推出的基于Graviton2芯片的M6g实例上运行的vCPU进行了比较。AWS并未具体说明在哪种实例配置上使用了哪种测试,
M5实例基于Intel的24核“ Skylake” Xeon SP-8175 Platinum(主频为2.5 GHz);该芯片是为AWS定制的,与库存的Xeon SP-8176 Platinum部件相比,前者内核少了四个,时钟速度(400 MHz)略高。
以下是在每个vCPU的基础上,Graviton2 M6g实例与各种工作负载相对于Skylake Xeon SP实例的堆叠方式:
-
SPECjvm 2008:+ 43%(估计)
-
SPEC CPU 2017整数:+ 44%(估计)
-
SPEC CPU 2017浮点数:+ 24%(估计)
-
Nginx的HTTPS负载均衡:+ 24%
-
内存缓存:性能提高了43%,延迟时间更短
-
X.264视频编码:+ 26%
-
使用Cadence Xcellium进行的EDA模拟:+ 54%
请记住:这些比较使Arm芯片上的内核与超线程相对应(因此,单线程性能下降,从而提高了芯片吞吐量)。这些都是显着的性能提升。
但是在比较中,AWS不一定能将其最好的Xeon SP放在首位。EC2 C5实例基于“ Cascade Lake” Xeon SP处理器,这是一个具有3.6 GHz的全核心睿频的西片,并且看起来它们具有激活了HyperThreading的一对24核心芯片,可以在单个映像中提供96个vCPU。。
R5实例是基于Skylake Xeon SP-8000系列芯片(精确度未知),内核运行于3.1 GHz;看起来这些实例还具有一对启用了HyperThreading的24核芯片。在每个vCPU的基础上,它们都比M5实例快得多,并且在整个vCPU的吞吐量方面也更具可扩展性。这些C5和R5实例上的额外时钟速度很可能会弥补每个vCPU的性能差距,但这同样无法确定。
这里的主要观点是,我们认为AWS可以使处理器的价格比从Intel购买处理器的价格便宜得多。Jassy也表示,价格/性能优势约为40%。(大概是在将设计和创建Graviton2的实际成本与我们假定的M5实例类型中使用的折扣非常大的定制Skylake Xeon SP进行比较。)因此,AWS推出了Graviton2处理器以支持Elastic MapReduce( Hadoop),弹性负载平衡,ElastiCache以及其云上的其他平台级服务。
对于我们其余的人,Graviton2芯片将提供三种不同的配置作为EC2计算基础架构服务上的实例:
-
通用(M6g和M6gd):1至64个vCPU和最多256 GB的内存
-
优化计算(C6g和C6gd):1至64个vCPU和最多128 GB的内存
-
内存优化(R6g和R6gd):1至64个vCPU和最大512 GB内存
“ g”表示Graviton2芯片,“ d”表示其具有用于实例上本地存储的NVM-Express闪存。所有实例的弹性块存储服务将具有25 Gb /秒的网络带宽和18 Gb /秒的带宽。还将有裸机版本。我们看看AWS是否实施CCIX互连以创建两路甚至四路NUMA服务器还是坚持使用单路设计,这将非常有趣。
M6g和M6gd实例现在可用,计算和内存优化版本也可以在2020年可用。芯片,平台和软件堆栈现在都可以从同一家单一供应商处获得。关于服务器平台,我们什么时候可以这么说?这也许会是一个很长的故事。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第2149期内容,欢迎关注。
『
半导体第一垂直媒体
』
实时 专业 原创 深度
识别二维码
,回复下方关键词,阅读更多
中美半导体|AI
|台积电
|英伟达
|
ASML
|
RISC-V
|
EDA|松下
回复
投稿
,看《如何成为“半导体行业观察”的一员 》
回复
搜索
,还能轻松找到其他你感兴趣的文章!
责任编辑:Sophie