[原创] 强悍的A64FX为Arm服务器打了一针强心剂
在全球超算领域,中美一直在争夺算力第一的位置,此外,日本和欧洲是两股重要力量。而在超级计算机的核心——处理器方面,也是八仙过海,各显神通,特别是在处理器架构方面,业界有着不同的路线:有的采用传统的x86以及IBM的Power,有的采用最新的并行异构计算体系,还有一个就是ARM服务器架构。
上周,在Hotchips会议上,富士通公司公布了号称最强ARM处理器A64FX,其集成了48+4个核心,配备32GB HBM 2内存,带宽1TB/s,浮点性能2.7TFLOPS,使用7nm工艺生产。该处理器将用于日本新一代代号为Post-K的百亿亿次超算,据悉,其性能将是现在的京式超算的100倍,而能耗只有三倍。
日本现在的超算京(Kyo)是富士通联合日本理化研究所开发的,使用的处理器是SPARC64架构,而新一代的百亿亿次超算将使用全新研发的处理器A64FX,与现有的超算相比,新一代Post-K超算最大的变化就是处理器从SPARC64架构全面转向了ARM,富士通还联合ARM推出了SVE(可伸缩矢量扩展)指令集,大幅强化浮点性能。
据悉,A64FX处理器使用了ARM的ARMv8.2-A指令集,浮点单元则是上面提到的SVE,支持512bit位宽浮点运算。这个处理器的架构设计也很特别,有48个计算核心及4个协助核心组成,分为四个CMG单元,每个单元13个核心,28Gbps I/O带宽,16条PCIe 3.0通道。
A64FX处理器将使用7nm FinFET工艺生产,87.86亿个晶体管,性能可达2.7TFLOPS,是前代的SPARC V9处理器1.1TFLOPS的2.5倍左右。
根据富士通公布的信息,目前A64FX处理器已经完成原型开发,新一代超算已经进入功能测试阶段。
富士通这一处理器产品的推出,特别是该公司将原有的超算处理器架构由原来的SPARC64全面转向了ARM,无疑是给当下的ARM服务器市场打了一针强心剂。
全球服务器市场的ARM元素
在当今的服务器CPU架构领域,ARM明显处于弱势地位,市场主要由x86主导,另外还有Power。在美国,ARM服务器CPU声势越来越弱,高通、AMD等大厂纷纷裁撤在该方面的投入。
ARM服务器CPU主要应用包括商用和超算等,下面就以超算应用为例,因为它还是比较有代表性的。
今年6月,美国能源部与IBM、英伟达合作打造出了新一代超级计算机,名为Summit。其峰值运算性能达到200PFlops,也就是每秒执行20亿亿次浮点运算,是迄今为止性能最强的超级计算机,也标志着自2012年以来美国超算超越中国,再次夺冠。Summit基于IBM的Power Systems AC922做节点,每个节点搭载2个Power9处理器和6个NVIDIA Tesla V100 GPU显卡,总共设计约4600个节点。
可见,美国的超算更看好CPU+GPU的发展路线。
而全球超算两强之一的中国,在处理器架构方面,则呈现百花齐放,并行发展的态势。
中国现在同时启动了三大百亿亿次超算研发项目,分别是国防科大/天津超算中心的“天河三号”、中科曙光的E级超算以及江南所/济南超算中心的“神威”E级。以上三套百亿亿次超算中,核心处理器都将是国产的。
其中,“天河三号”采取的技术路线则是基于ARM构架处理器,中科曙光则选择了类似于美国主流超算的CPU+GPU技术路线,“神威”采用的是众核异构体系——国产申威SW26010处理器。
此外,欧盟预计于2022~2023年交付首台E级超算,使用的是美国、欧盟处理器,架构有可能类似ARM。
以上主要给出全球超算市场的处理器架构情况,而在商用服务器市场,ARM处理器应用情况与超算没有太大的差别。可见,ARM架构在全球服务器市场是处于弱势地位的。
但随着中国在ARM服务器研发上的发力,以及日本的代表企业富士通将超算处理器架构由SPARC64全面转向了ARM,特别是本次推出了强悍的新一代ARM处理器A64FX,让人感觉眼前一亮。这些,是否预示着ARM服务器在市场洗牌之后,进入了新一轮的博弈呢?答案还要由市场和时间给出。
中国ARM服务器CPU阵营
中国的ARM服务器CPU有三强,分别是飞腾,华芯通和华为。
“天河三号”原型机采用的就是飞腾的ARM处理器,是一款百亿亿次的超算产品,综合运算能力是“天河一号”的200倍,“天河二号”的30倍(“天河一号”、“天河二号”用的都是Intel的Xeon处理器)。“天河三号”原型机于今年6月部署在天津超算中心,年底将正式上线投入使用。据悉,原型机的作用是为了验证‘天河三号’的技术路线。
在“天河一号”、“天河二号”阶段,飞腾处理器就有应用,但当时采用的不是ARM架构,而是Ultra SPARC,基于此架构的8核64线程的FT-1000被用在天河一号的节点网络上,之后,同样基于SPARC架构的FT-1500,用在了天河二号超算上,用于节点前端处理器。
之后的FT-1500A,其架构则由SPARC转变成了ARM 64位,这与富士通的发展路线非常相似。不过飞腾这一转变还有另外一层因素,就是避免被Intel的Xeon处理器“卡脖子”。
之后,飞腾在2016年发布了基于ARM架构的FT-2000,最新产品是尚未对外发布的升级版——FT-2000 Plus。
FT-2000采用28nm制造工艺,可被用于超算计算节点和高性能服务器。集成了64个FTC661处理器核。工作主频1.5GHz—2.0GHz。支持16个DDR3-1600存储控制器,可提供204.8GB/s访存带宽。最大功耗100W。
据悉,在ARMv8指令集兼容的现有产品中,FT-2000在单核计算能力、单芯片并行性能、单芯片cache一致性规模、访存带宽等指标上处于国际先进水平。其自定义的扩展接口不但可以用来扩展缓存容量和存储能力,还可以用来外接FPGA等加速器类专用芯片,实现异构计算。
虽然没有公开,但业界普遍认为,“天河三号”采用的处理器应该就是FT-2000 Plus。这款CPU是FT-2000的后继产品。有信息显示,FT-2000 Plus采用16nm制程。
相对于FT-2000,FT-2000 Plus首要任务就是提升集成度,以便于整机设计,其由支持可扩展DDR3存储控制器改为片内集成DDR4内存控制器,再加上使用了台积电16nm制造工艺,主频最高可稳定在2.4GHz,使FT-2000 Plus相对于FT-2000还是有不小的性能提升,能够满足高端服务器和超算主控CPU的性能要求。虽然FT-2000 Plus在单核性能上和Intel还存在一定差距,但在多核性能上,已经达到Intel服务器CPU E5 主流产品的水平。
华芯通
今年5月,华芯通在数博会的“Arm服务器产业生态高峰论坛”上正式发布了其高性能服务器CPU品牌“昇龙”。华芯通首款“昇龙”处理器采用10nm制程工艺,最多48核,ARM V8架构,内置国密密码模块和芯片级的安全基础架构。
据悉,昇龙处理器流片回来的实测性能已达到两颗英特尔最新主流CPU水平,其能耗却低了50%以上。如果情况果真如此的话,那么其性能还是比较强劲的,至少从算力上是可以进入主流云服务市场的,可以与x86架构产品争一争,但短期内还难以形成规模,发展道阻且长,市场前景还要看华芯通的运营能力,以及主要合作和技术提供方——高通的支持力度。
华为
2016年,华为推出了第一款ARM架构服务器CPU“泰山”(Taishan)1612,采用的是ARM Cortex A57,这款处理器采用了台积电16nm制程工艺,兼容ARM v8-A指令集,是华为在国内主推的第一款多核服务器CPU。
据悉,1612是核高基1号专项项目,用来做互联网冷却储存的生态系统验证,并未进行推广和量产。据说,经过几年攻坚,华为已经攻克多项技术难题,2017年成功开发出第一款自研的、基于ARM架构的CPU,能效是x86的x倍、领先市场上的同类ARM架构CPU。从华为的一次会议上获悉,华为海思图灵业务部开发的泰山自研64 位CPU已经成功商用。
最近有消息传出,2019年华为将研制出性能堪比x86主流中端产品的ARM架构服务器芯片,并将正式量产,进行公开商用推广。
华为在研发处理器方面一向都非常谨慎,而在ARM架构服务器芯片方面更是低调至极,鲜有公开信息。可以肯定的是,在ARM服务器CPU研发方面,华为内部一定是在紧锣密鼓地进行着,就看这个憋了很久的大招何时能够放出吧。
结语
ARM在手机和嵌入式应用当中顺风顺水,呼风唤雨,在此基础上,有了足够的底气和资本,从而想在服务器领域与传统的x86阵营掰一掰手腕,要想在坚固的x86生态中分得更多蛋糕,确实困难重重,需要付出的努力和投入将是巨大的。
而日本及中国ARM服务器CPU阵营的坚持与投入无疑为其发展增加了砝码,而如何运用这些砝码来建设新生态,突破固有格局,走上良性的商用之路,是摆在ARM服务器阵营面前的大课题,前途如何,将由时间来检验。
- 半导体行业观察
- 摩尔芯闻