Arm推出两款新芯片,发力基础设施市场

2020-09-28 10:01:50 来源: 互联网
即使已经统治了移动设备处理器市场;在嵌入式芯片领域,他们的影响力也与日俱进;但IP巨头Arm在本世纪一直都对服务器芯片市场虎视眈眈。
 
在两年前,Arm针对5G网络和下一代云端到边缘基础设施发布了全新的解决方案Neoverse。按照Arm的说法,他们的这项发布为实现万亿互联设备的世界奠定基础,这是整个云计算、网络和存储领域具有颠覆性的事件。
 
“Arm Neoverse IP将使我们广泛的生态系统合作伙伴能够将基础设施从云端向边缘转型,将计算性能推送到最需要的地方,将数据存储到最合适的位置,同时不断改进网络,将复杂的世界能够安全地互联”,Arm方面强调。
 
具体到路线图方面,根据Arm当时的规划,Neoverse未来几代的产品将会保持每年至少30%性能的提升,而这些提升的实现,是通过工艺制程的演进、微架构的提升和内存系统上的演变来实现的。
 
 
而从Arm提供的数据可以看到,在他们第一代的N1平台上,开发者获得了比预期好一倍的效果,较之前一代提升了60%。展望未来,他们不但带来了全新的N2,同时还规划了一个V1产品线,为基础设施提供更强劲的芯片支持。
 
 
Arm Neoverse的三大产品线
 
在详细介绍Arm推出的两款新产品之前,我们先回忆一下他们在今年推出全新Cortex-A78和Cortex-X1的发布,因为这个发展路线也是当前Neoverse产品线的参考。
 
在今年五月,Arm发布了新一代的Cortex-A78架构,据他们介绍,这一代新产品与上一代产品相比,能耗下降了50%,面积缩小了5%。Arm进一步指出,在这个设计上,公司把芯片的PPA都做了充分的平衡,让其成为一个理想的高效率产品。
 
但和常规的升级不一样,除了上述Cortex-A系列处理器外,Arm又带来了一款专注性能计算的处理器Cortex-X1,这个芯片突破了上述芯片行业设计常用的PPA限制,而是为客户提供了更强劲的性能选择。数据也显示,在性能方面,Cortex-X1将比Cortex-A77提高30%,与Cortex-A78相比,Cortex-X1的的整数运算性能提升了23%,Cortex-X1还拥有两倍于Cortex-A78的机器学习能力。
 
同理,Neoverse N2就是沿袭上一代的N1的提升,整个N系列也是基于PPA均衡而做的优化设计;V系列则是Arm针对有高性能需求市场推出的一款处理器产品。这个系列以功耗和面积为代价,实现最佳性能;由下图可以看到,Arm还给Neoverse规划一个E系列,在这款产品上,Arm针对功耗和面积做了优化,力求将其打造成一系列以效率为中心,以性能为代价的产品,这是一个面向效率输出的产品。
 
Arm三管齐下的方法针对横向扩展(N系列),边缘型设备(E系列)和横向扩展高性能计算,高性能云和机器学习(V系列)等应用提供了支持
 
 
“整体来说,如果客户比较看重线程的需求,那么N系列就比较适合,如果客户需要运行高性能计算领域的工作负载,那么V系列就能够提供更大的价值。这完全取决于客户对于在功耗,性能,面积上的需求与配置。”Arm基础设施事业部高级副总裁兼总经理 Chris Bergey在接受半导体行业观察等记者采访的时候表示。
 
两款设计助力基础设施腾飞
 
如前文所说,Arm推出了两款新产品,我们首先了解一下N2。
 
如下图所示,Arm将其命名为Perseus。作为N1的继承者。N2较之前一代带来了40%的IPC提升,但是这个产品仍然保持着与N1相同的设计理念,即在最低功耗和最小面积内实现性能的最大化。
 
 
Arm进一步指出,该设计还具有单线程内核,且可以被划分为-32-192个内核、12-26个内核和8-16个内核的版本,以满足不同类型部署的电源和性能需求。按照Arm的规划,32到192核的CPU可以面向企业和云市场,12到36核心的CPU能够开关和智能网卡CPU的市场,至于8到16核的设计,则能为Gateway和路由CPU提供支持。
 
了解了N2之后,我们深入谈一下新规划的V系列产品线及其首款产品V1。从Arm的介绍我们可以看到,这款新产品仅专注于最大性能,而对功耗和面积的关注较少。这就意味着V1具有显着更大的缓存,内核结构,使用了更多的面积和功能来达到前所未有的性能水平。
 
 
与Neoverse N1相比,V1的IPC实现了突破性的50%提升。这超出了Arm几年前制定的30%的目标。考虑到由于过程节点和TDP限制而可能带来频率增加,所以当我们在最终设计中缩小每核性能时,我们可以看到更大的增益,IPC将超过 50%。据了解,这些芯片将以96个单线程内核为最高,并支持HBM2e。 值得提一下的是,N2支持的是HBM3。
 
此外,据Arm介绍,V1也增加了对SVE的支持,这和N2的设计也是相同的。
 
Chris Bergey支持,SVE在加速HPC高性能计算领域或者是机器学习工作方面表现高效,同时它对软件开发者非常友好,让开发者在进行相关开发时,不需要管矢量的位宽是多少。
 
“我们认为SVE非常强大,未来它的生态系统也将获得迅速发展。”Chris Bergey强调。而Arm在未来也会加大在这方面的投入。
 
但我们从Arm的介绍得知,V1也增加了对SVE的支持,允许被许可方完全控制SVE频率和功率目标。这与我们在英特尔平台上使用各种AVX所看到的不同,Arm的设计将使设计人员可以避免矢量化工作负载期间的时钟频率降低。现在,架构师可以调整其芯片以达到预期的冷却量,而水冷设计能够释放SVE性能的最高水平(约500W)。
 
“Arm未来会将SVE推向Arm的多个系列产品”,Chris Bergey最后说。
 
 
Arm的更多想法
 
在Arm的全新产品设计上,可以看到他们对Chiplet的重视,同时Arm还广泛描绘了其互连路线图,但是该公司已经创建了一种芯片级结构,据称它可以在N1平台中实现线性核数扩展。 
 
 
如上图所示,Arm现在正在CCIX接口方面投入,未来他们将转向CXL。
 
后者是一项由英特尔推动的开放源代码计划,已被业界广泛采用,该技术将节点之间的一致性内存池或节点内持久性内存池捆绑在一起。该结构还将使远程GPU和NPU之间能够建立连接,这两者都很好地顺应了Nvidia经常陈述的数据中心体系结构的广阔视野。 
 
“现在数据中心不论是作为存储或是数据加速,整个趋势都是分布式的,但对于性能与功耗的要求越来越高,其中的计算能力就需要变得专业化。
 
Chris Bergey进一步指出,现在对Arm来说,是一个很大的机会,因为不论是基于FPGA,GPU,或是TPU单元的加速器,数据的移动是必不可缺的,这时Arm架构的可扩展性使其成为非常优异的解决方案。这样的结合可能是通过紧耦合,智能网卡的网络,或是其他形式来达成异构计算。
 
“对我们来说,那就是如何提供紧耦合或是定制化的能力,甚至是通过多核封装或多芯片组装技术,将来自生态系统、IP技术与云厂商的需求与技术整合在一起。”Chris Bergey说。
责任编辑:sophie
半导体行业观察
摩尔芯闻

热门评论