[原创] 强悍的A64FX为Arm服务器打了一针强心剂

2018-08-29 14:00:17 来源: 半导体行业观察

点击

在全球超算领域，中美一直在争夺算力第一的位置，此外，日本和欧洲是两股重要力量。而在超级计算机的核心——处理器方面，也是八仙过海，各显神通，特别是在处理器架构方面，业界有着不同的路线：有的采用传统的x86以及IBM的Power，有的采用最新的并行异构计算体系，还有一个就是ARM服务器架构。

上周，在Hotchips会议上，富士通公司公布了号称最强ARM处理器A64FX，其集成了48+4个核心，配备32GB HBM 2内存，带宽1TB/s，浮点性能2.7TFLOPS，使用7nm工艺生产。该处理器将用于日本新一代代号为Post-K的百亿亿次超算，据悉，其性能将是现在的京式超算的100倍，而能耗只有三倍。

日本现在的超算京（Kyo）是富士通联合日本理化研究所开发的，使用的处理器是SPARC64架构，而新一代的百亿亿次超算将使用全新研发的处理器A64FX，与现有的超算相比，新一代Post-K超算最大的变化就是处理器从SPARC64架构全面转向了ARM，富士通还联合ARM推出了SVE（可伸缩矢量扩展）指令集，大幅强化浮点性能。

据悉，A64FX处理器使用了ARM的ARMv8.2-A指令集，浮点单元则是上面提到的SVE，支持512bit位宽浮点运算。这个处理器的架构设计也很特别，有48个计算核心及4个协助核心组成，分为四个CMG单元，每个单元13个核心，28Gbps I/O带宽，16条PCIe 3.0通道。

A64FX处理器将使用7nm FinFET工艺生产，87.86亿个晶体管，性能可达2.7TFLOPS，是前代的SPARC V9处理器1.1TFLOPS的2.5倍左右。

根据富士通公布的信息，目前A64FX处理器已经完成原型开发，新一代超算已经进入功能测试阶段。

富士通这一处理器产品的推出，特别是该公司将原有的超算处理器架构由原来的SPARC64全面转向了ARM，无疑是给当下的ARM服务器市场打了一针强心剂。

全球服务器市场的ARM元素

在当今的服务器CPU架构领域，ARM明显处于弱势地位，市场主要由x86主导，另外还有Power。在美国，ARM服务器CPU声势越来越弱，高通、AMD等大厂纷纷裁撤在该方面的投入。

ARM服务器CPU主要应用包括商用和超算等，下面就以超算应用为例，因为它还是比较有代表性的。

今年6月，美国能源部与IBM、英伟达合作打造出了新一代超级计算机，名为Summit。其峰值运算性能达到200PFlops，也就是每秒执行20亿亿次浮点运算，是迄今为止性能最强的超级计算机，也标志着自2012年以来美国超算超越中国，再次夺冠。Summit基于IBM的Power Systems AC922做节点，每个节点搭载2个Power9处理器和6个NVIDIA Tesla V100 GPU显卡，总共设计约4600个节点。

可见，美国的超算更看好CPU+GPU的发展路线。

而全球超算两强之一的中国，在处理器架构方面，则呈现百花齐放，并行发展的态势。

中国现在同时启动了三大百亿亿次超算研发项目，分别是国防科大/天津超算中心的“天河三号”、中科曙光的E级超算以及江南所/济南超算中心的“神威”E级。以上三套百亿亿次超算中，核心处理器都将是国产的。

其中，“天河三号”采取的技术路线则是基于ARM构架处理器，中科曙光则选择了类似于美国主流超算的CPU+GPU技术路线，“神威”采用的是众核异构体系——国产申威SW26010处理器。

此外，欧盟预计于2022~2023年交付首台E级超算，使用的是美国、欧盟处理器，架构有可能类似ARM。

以上主要给出全球超算市场的处理器架构情况，而在商用服务器市场，ARM处理器应用情况与超算没有太大的差别。可见，ARM架构在全球服务器市场是处于弱势地位的。

但随着中国在ARM服务器研发上的发力，以及日本的代表企业富士通将超算处理器架构由SPARC64全面转向了ARM，特别是本次推出了强悍的新一代ARM处理器A64FX，让人感觉眼前一亮。这些，是否预示着ARM服务器在市场洗牌之后，进入了新一轮的博弈呢？答案还要由市场和时间给出。

中国ARM服务器CPU阵营

中国的ARM服务器CPU有三强，分别是飞腾，华芯通和华为。

“天河三号”原型机采用的就是飞腾的ARM处理器，是一款百亿亿次的超算产品，综合运算能力是“天河一号”的200倍，“天河二号”的30倍（“天河一号”、“天河二号”用的都是Intel的Xeon处理器）。“天河三号”原型机于今年6月部署在天津超算中心，年底将正式上线投入使用。据悉，原型机的作用是为了验证‘天河三号’的技术路线。

在“天河一号”、“天河二号”阶段，飞腾处理器就有应用，但当时采用的不是ARM架构，而是Ultra SPARC，基于此架构的8核64线程的FT-1000被用在天河一号的节点网络上，之后，同样基于SPARC架构的FT-1500，用在了天河二号超算上，用于节点前端处理器。

之后的FT-1500A，其架构则由SPARC转变成了ARM 64位，这与富士通的发展路线非常相似。不过飞腾这一转变还有另外一层因素，就是避免被Intel的Xeon处理器“卡脖子”。

之后，飞腾在2016年发布了基于ARM架构的FT-2000，最新产品是尚未对外发布的升级版——FT-2000 Plus。

FT-2000采用28nm制造工艺，可被用于超算计算节点和高性能服务器。集成了64个FTC661处理器核。工作主频1.5GHz—2.0GHz。支持16个DDR3-1600存储控制器，可提供204.8GB/s访存带宽。最大功耗100W。

据悉，在ARMv8指令集兼容的现有产品中，FT-2000在单核计算能力、单芯片并行性能、单芯片cache一致性规模、访存带宽等指标上处于国际先进水平。其自定义的扩展接口不但可以用来扩展缓存容量和存储能力，还可以用来外接FPGA等加速器类专用芯片，实现异构计算。

虽然没有公开，但业界普遍认为，“天河三号”采用的处理器应该就是FT-2000 Plus。这款CPU是FT-2000的后继产品。有信息显示，FT-2000 Plus采用16nm制程。

相对于FT-2000，FT-2000 Plus首要任务就是提升集成度，以便于整机设计，其由支持可扩展DDR3存储控制器改为片内集成DDR4内存控制器，再加上使用了台积电16nm制造工艺，主频最高可稳定在2.4GHz，使FT-2000 Plus相对于FT-2000还是有不小的性能提升，能够满足高端服务器和超算主控CPU的性能要求。虽然FT-2000 Plus在单核性能上和Intel还存在一定差距，但在多核性能上，已经达到Intel服务器CPU E5 主流产品的水平。

华芯通

今年5月，华芯通在数博会的“Arm服务器产业生态高峰论坛”上正式发布了其高性能服务器CPU品牌“昇龙”。华芯通首款“昇龙”处理器采用10nm制程工艺，最多48核，ARM V8架构，内置国密密码模块和芯片级的安全基础架构。

据悉，昇龙处理器流片回来的实测性能已达到两颗英特尔最新主流CPU水平，其能耗却低了50%以上。如果情况果真如此的话，那么其性能还是比较强劲的，至少从算力上是可以进入主流云服务市场的，可以与x86架构产品争一争，但短期内还难以形成规模，发展道阻且长，市场前景还要看华芯通的运营能力，以及主要合作和技术提供方——高通的支持力度。

华为

2016年，华为推出了第一款ARM架构服务器CPU“泰山”(Taishan)1612，采用的是ARM Cortex A57，这款处理器采用了台积电16nm制程工艺，兼容ARM v8-A指令集，是华为在国内主推的第一款多核服务器CPU。

据悉，1612是核高基1号专项项目，用来做互联网冷却储存的生态系统验证，并未进行推广和量产。据说，经过几年攻坚，华为已经攻克多项技术难题，2017年成功开发出第一款自研的、基于ARM架构的CPU，能效是x86的x倍、领先市场上的同类ARM架构CPU。从华为的一次会议上获悉，华为海思图灵业务部开发的泰山自研64 位CPU已经成功商用。

最近有消息传出，2019年华为将研制出性能堪比x86主流中端产品的ARM架构服务器芯片，并将正式量产，进行公开商用推广。

华为在研发处理器方面一向都非常谨慎，而在ARM架构服务器芯片方面更是低调至极，鲜有公开信息。可以肯定的是，在ARM服务器CPU研发方面，华为内部一定是在紧锣密鼓地进行着，就看这个憋了很久的大招何时能够放出吧。

结语

ARM在手机和嵌入式应用当中顺风顺水，呼风唤雨，在此基础上，有了足够的底气和资本，从而想在服务器领域与传统的x86阵营掰一掰手腕，要想在坚固的x86生态中分得更多蛋糕，确实困难重重，需要付出的努力和投入将是巨大的。

而日本及中国ARM服务器CPU阵营的坚持与投入无疑为其发展增加了砝码，而如何运用这些砝码来建设新生态，突破固有格局，走上良性的商用之路，是摆在ARM服务器阵营面前的大课题，前途如何，将由时间来检验。

责任编辑：Sophie

超级计算机富士通

申请专栏作者

: 半导体行业观察

: 摩尔芯闻

[原创] 强悍的A64FX为Arm服务器打了一针强心剂

相关文章

最新新闻

热门文章本日 七天 本月

热门评论

热门搜索

[原创] 强悍的A64FX为Arm服务器打了一针强心剂

相关文章

最新新闻

热门文章 本日 七天 本月

热门评论

热门搜索

热门文章本日七天本月