从高通Centriq芯片看ARM服务器生态
来源:本文由半导体行业观察翻译自nextplatform ,作者Paul Teich谢谢。
高通在几周之前发布了 Centriq 服务器片上系统(SoC)。那场活动的中心是 Centriq 的技术规格和定价,并且还揭示了该生态系统的大量合作伙伴和客户。我曾经介绍了三星用于 Centriq 的工艺并且该公司还在到处向其客户推荐 Centriq,参阅:https://www.forbes.com/sites/tiriasresearch/2017/11/10/qualcomm-launches-into-server-market/#3a87043d44ef
尽管高通当时是在发布自己的 Centriq 2400 处理器,而并不是重点关注那些会使用该参考设计(reference design)的硬件合作伙伴,但高通还是选择将其 Centriq 发布会的重点放在了生态系统的发展上,其中高通还着重强调了软件工作负载和合作伙伴关系。因为当今很多的云负载组合都基于运行时环境(即使用容器、解释型语言等),所以比起操作系统和编译器,发布一款新芯片更需要的是生态系统支持。
我们相信高通在高价值工作负载和应用上重点关注生态系统的战略是健全合理的。Centriq 2400 发布会展示了很多 64 位 ARM 数据中心工作负载——我们从未看过这么多工作负载集中在同一个地方。
实际上在高通的 Centriq 发布会上还是有很多硬件。在该发布会上给出的所有演示都是由基于高通 Centriq 参考设计的现场服务器或基于云的服务器(基本托管在 Packet.net 上)所驱动的。本文将重点关注对高通在其发布会上和之后一周举办的 SC17 全球超级计算大会上提到的系统、软件和解决方案所准备的技术。
高通的 Anand Chandrasekher 展示 Centriq 2400 晶圆和封装
高通的 Centriq 参考主板设计是一种半宽主板,可以放进各种 1U 机箱中。该主板参考设计还符合开放计算项目(OCP)的 Project Olympus 的规格,该规格来自微软 Azure。
高通的参考平台也可以将参考主板放进一个全宽机箱中,这样合作伙伴和客户就可以评估双主板配置以及存储丰富的配置。
我们看到有多个版本的高通参考平台,但仅有一个独特的第三方设计。
高通 Centriq 参考平台前面板
在发布会上配置成存储服务器的高通 Centriq 参考平台
在 SC17 上配置为双节点计算所配置的高通 Centriq 参考平台
另外,Open19 基金会的总裁兼董事会主席 Yuval Bachar 也选择在高通的 Centriq 发布会上展示我们已经公开看过的其第一款 Open19 机箱。我们确实也在 SC17 上看到了另一种相竞争的 Open19 计算机箱,但那是没太多人关注的 ODM 设计。可以想见未来几个月还会有更多设计出现。
在发布会上带有高通 Centriq 2400 主板的 Open19 演示机箱
Centriq 最重要的一个方面看起来很平淡无奇:Centriq 2400 的闲置功耗为 8W,峰值功耗为 120W,不需要液冷来实现高计算密度。我们在发布会和 SC17 上都看到了生产型的风冷 Centriq 2400 散热器。
高通 Centriq 参考设计,左图为带有风冷散热片的,右图为不带的
带有风冷散热片的高通 Centriq 2400 的特写
高通在三月份的 OCP 峰会上展示过其参考主板的 Rev B(B 版本)。我们在发布会上看到了 Rev C 主板,然后高通在 ARM 的 SC17 展位上展出了一块 Rev E 主板。电路板设计师忘记将下面照片中的文本改成 Rev C,但其主板编号表明它确实是 Rev C。
主板版本可以表明实现生产可行的系统的进展。注意这些主板的颜色变化:从 Rev B 和 C 的红色变成了 Rev E 的蓝色。这种颜色变化表明客户可以评估乃至也许可以部署 Rev E 了。
高通 Centriq 参考主板版本
该参考平台包含一个灵活的电源分配板,我们在其上找到了几个在发布会和 SC17 上提到的 Centriq 参考设计。
高通 Centriq 参考电源分配板
高通设计的 Centriq 参考平台支持兼容 OCP Olympus 的插卡扩展。插卡扩展让兼容 OCP Olympus 的高通 Centriq 主板在 1U 机箱的配置中能有很多选择。
这种 1U 高度的 PCI-Express x16 插槽支持范围广泛的 PCI-Express 附加[add-in 翻译为 附加。附加卡,附加板]卡,支持 1U 机箱中的多种实际配置。其它三种 Project Olympus 主板规格中没有任何一种定义了 Centriq 2400 规格那样多的插卡类型。
OCP 通用主板插卡(来自:高通)
高通当前的 Centriq OCP Project Olympus 通用主板规格定义了 6 种插卡类型:
1.在主板上方连接单个 PCI-Express x16 电子和机械附加卡,其中带有主要元件的一面朝上,远离主板。
2.在主板上方连接单个 PCI-Express x8 电子和机械附加卡,其中带有主要元件的一面朝上,远离主板,并且通过其 PCI-Express x8 连接器还在该插卡的背面增加了一个 M.2 插槽。
3.在主板上方将单个 PCI-Express x8 电子附加卡与 x16 机械附加卡连接到一起,其中带有主要元件的一面朝上,远离主板。在该插卡上第 2 种类型中 M.2 插槽的位置有一个 x8 OcuLink 线连接头,可以在机箱内通过线缆扩展 PCI-Express。
4.将两个 PCI-Express x8 电子附加卡与 x16 机械附加卡连接到一起,该插卡两面各有一个,都面朝上,远离主板。
5.连接单个 PCI-Express x16 电子和机械附加卡,远离主板,其中带有主要元件的一面朝下,从而最大化机箱底部和附加板之间的空气量。这种插卡是专为增加高通的 “MegaCard” NVM-Express 夹层而设计的。这款插卡包含一个 PCI-Express x1 控制线,连接到了 MegaCard 上的 PCI-Express 开关芯片。
6.连接单个 PCI-Express x16 电子和机械附加卡,远离主板,其中带有主要元件的一面朝下,留下最大化的机箱空间,可以在 Centriq 主板旁边放入一个全尺寸、全功率(300 W)的 GPU 或 FPGA 加速板卡。
在过去几周中展示的第 1 类插卡和电源分配板都是 Rev B 评估型的原型设计。
在发布会和 SC17 上展示了两种类型的附加卡:Mellanox 网络附加卡(上面和下面的多个系统中都有)和高通的 MegaCard。
带有 OCP 第 1 类 PCI-Express 插卡(红色)的高通 Centriq 2400 主板,其中一个插卡上带有一个网卡(右边带有黑色散热片的卡),这是在 SC17 上看到的
高通的 MegaCard 支持 20 个 M.2 NVM-Express 存储卡,在 MegaCard 每一面各 10 个。NVM-Express 卡连接着一个MicroSemi PM8536 PCI-Express 3.0 转换器。这个转换器通过上面提到的 PCI-Express x16 第 5 类插卡连接到高通 Centriq 主板上。因为 10 个 M.2 卡需要一定的主板面积,所以 MageCard 会在全宽 1U 机箱中占据另一个 Centriq 2400 主板的位置;PCI-Express 连接头在第 1 类型插卡的另一面,并且安装在该插卡上更高的位置。高端 NVM-Express 硬盘有 4TB 容量,所以高通的 MegaCard 可以支持 80TB 的 PCI-Express 3.0 NVM-Express 存储。
高通MegaCard 特写(上图),安装在参考设计机箱中的样子(下图)(来自:高通)
插卡让高通 Centriq OCP 系统客户可以使用种类繁多的第三方附加板。附加板扩展将能让基于 Centriq 的系统实现计算、存储和网络扩展功能,还能将负载迁移到加速器上。
在 Centriq 发布会上,高通强调了应用和工作负载的重要性。高通及其合作伙伴在发布会上为此设置了二十几个展示台。
高通的目标是能够很好扩展的高度线程化的工作负载。对于搜索、内容交付网络和内存密集型的数据分析等容器化的、基于微服务的应用而言,高通的高线程数和高内存带宽的架构是非常适用的。
高通 Centriq 发布会上的展示
两家数据库公司展示了运行在高通 Centriq 2400 上的性能扩展数据:MariaDB 和 ScyllaDB。
MariaDB 是一个开源的 SQL(关系)联机事务处理(OLTP)数据库。Centriq 2400 的高核心数让 MariaDB 每个连接模型的一个线程可以很好地扩展;MariaDB 的内部测试表明:在一个 48 核的 Centriq 2400 处理器上,可以近乎线性地扩展成 46 个并发的数据库会话。剩下的几个核心专用于管理任务(housekeeping tasks)。
MariaDB 演示截屏(来自:MariaDB)
每个 MariaDB 会话在每个核心上都实现了每秒平均 10 000 次查询,使得每个 Centriq 2400 服务器节点每秒可实现多达 420 000 次查询。由于每个核心只有一点开销,所以管理任务可以分散出去,并且单个 Centriq 2400 服务器节点就可以提供 48 个并发会话。
用于 Centriq 2400 服务器处理器的 MariaDB Server 10.2 现在已经可用了。
ScyllaDB 演示表现结果(来自 ScyllaDB)
ScyllaDB 是一种开源的非 SQL 数据库,实现了兼容 Apache Cassandra 的接口;ScyllaDB 可以直接替代 Cassandra。ScyllaDB 使用一种高性能的 C++ 实现替代了 Cassandra 的 JVM 运行时依赖。这种 ScyllaDB 实现是无锁的、无共享(shared nothing)的设计,可以通过让每个核心处理一个数据库分片来实现扩展。本地内存管理可以实现一致的低于毫秒的每分片内存延迟。
ScyllaDB 对其运行在三个 Centriq 2400 服务器节点上的数据库进行了基准研究。根据 boot 设置,其中每个节点的活跃核心数在 10 到 40 之间变化。这项研究表明在三个系统上的性能可以扩展超过 100 万 IOPS(每秒读写操作数),并且随着每个节点的核心数增加至 40,其性能是线性扩展的。
Excelero 是一家 NVM-Express 模块化存储服务器创业公司,该公司宣布已经得到了来自 Qualcomm Ventures(高通风险投资)的战略投资并且展示了其运行在 Centriq 上的产品。MegaCard 似乎非常适合 Excelero 的应用,而且可能还能加速 MariaDB 和 ScyllaDB 等数据库。
微软 Azure 的杰出工程师 Leendert van Doorn 在演讲中还提到:Azure 很看重 Centriq 2400 用于搜索结果和实现大内存数据库的吞吐处理。van Doorn 指出对于没有参考位置的查询(其中每个查询都有可能访问该数据库的不同部分,他将其描述为“在数据库中随机游走”),每个核心都有突出内存系统需求的大量核心能在内存系统上实现更高的综合性能。
Synopsys 展示了其运行在 Centriq 2400 上的 VCS 验证仿真和设计包。这只是一个演示。Synopsys 的营销副总裁 Michael Sanie 说用 VCS 来进行演示很容易并且可以在 Centriq 2400 上顺畅地运行。Sanie 很谨慎地没有将该演示称为 VCS 的一种“移植(port)”,因为移植就意味着调试的承诺和质量保证。他说 Synopsys 会为一次移植运行“成千上万次”回归测试。但他确实说了他不认为进行 64 位 ARM 移植有什么问题,而且 Synopsys 正在研究将其整个平台移植到 64 位 ARM 处理器上的可行性。Synopsys 和高通已有很长时间的合作伙伴关系,我可以预见 Synopsys 最终会支持“在高通上运行高通(Qualcomm runs on Qualcomm)”的计划,就像是 AMD 在 2000 年代推出其 Opeteron 产品线一样。
Cadence 宣布其正在发售用于 ARM 64 位处理器的 Xcelium 设计仿真和验证软件应用程序,并且也展示了运行在 Centriq 2400 上的 Xcelium。Xcelium 运行在 SUSE Linux Enterprise 操作系统上。
赛灵思演示截屏
赛灵思展示了一款运行在 Centriq 2400 上的机器学习 Virtex Ultrascale+ FPGA 推理加速栈。机器学习对吞吐量和延迟都很敏感。高通和赛灵思已经合作了多年,并且还在 CCIX 和其它数据中心之外的技术上开展合作。同样,FPGA 加速将会成为在高通数据中心基础设施上运行高通的芯片设计的关键组成部分。
SmarCo 视频转换演示
SmarCo 展示了其“一体式”机器学习平台,该平台基于高通内部一款 Centriq 2400 参考主板设计的变体。SmarCo 使用了基于 PCI-Express 的 FPGA 加速器卡来执行高吞吐量的视频图像处理,并且还使用了该公司专有的 SSM3500 PCI-Express 卡(上面有该公司自己的 SmarCo-2 视频处理芯片)来进行视频转换。SmarCo 宣称在基于 Centriq 2400 的平台上的图像转换速度比相当的 x86 平台快 4 倍,图像检测的速度也快大约 1.5 倍。
SmarCo 图像检测演示
高通参考主板的 SmarCo “AI All-in-one” 变体
Mellanox Technologies 和 6Wind 展示了网络安全网关,该网关结合了 Centriq 参考平台、Mellanox 当前一代 ConnectX-5 2×40 Gb/sec NIC 和 6Wind 的基于 DPDK 的虚拟网络功能(VNF)软件。6Wind 在高通发布 Centriq 之前几周才刚刚宣布支持 ARM 64 位处理器。
Mellanox 和 6Wind 展示 NFV 安全网络(来自:6Wind)
6Wind 的 Virtual Accelerator 和 Turbo IPsec VNF 软件的目的是为很好地使用在一个服务节点中的多个处理核心来进行扩展,其性能可随核心数近乎线性的增长。6Wind 运行在 Centriq 2400 上的应用使用了 Ubuntu 的 KVM 系统管理程序(hypervisor)和开源的 Grafana 度量分析和可视化套件。Mellanox 和 6Wind 还展示了一种 Telco Open NFV 实现。
SolarFlare 正在使用其 XtremeScale SDN 网络接口卡和 Centriq 2400 服务器节点(每个 1U 机箱两个节点)来为大规模分布式计算环境构建其所谓的“神经类网络(neural class networks)”。每个 NIC 支持多达 2048 个虚拟 LAN 连接,支持在单个机架中放置 76 个 Centriq 2400 处理器(也就是 3648 个核心)。SolarFlare 正在 Centriq 2400 上运行 NGINX 应用交付平台,并且表示还将会支持网络托管和大数据分析。SolarFlare 已经在部署基于 Centriq 的神经类网络了。
Chelsio 宣布 Centriq 2400 参考平台已经可以使用其 T6 Unified Wire 网络解决方案了,该公司还展示了一款以太网适配器,其在高通的认可供应商列表(AVL)中。
Netronome 宣布 Centriq 2400 已可使用其 Agilio SmartNIC 和软件。Agilio SmartNIC 可以将用于覆盖、安全、负载平衡和远程测量等网络功能的虚拟交换机和路由器数据路径处理转移到其它地方。Netronome 的目标是让包括电信公司在内的云服务提供商采用其 Agilio with Centriq 解决方案。
Packet Networks 使用亚马逊 Alexa 前端展示了它的全套工具,这些工具运行在 Packet 数据中心中的 Centriq 2400 参考平台上。Packet 已经在向其软件开发者(基础是基础设施即服务(IaaS)客户)提供基于 ARM 的裸机服务器了。裸机服务器客户关注的重点是他们所使用的特定硬件,因为裸机是单租户实例(single tenant instance);开发者必须清楚他们付钱买的是什么,以便得到能满足他们需求的最高性能的基础设施。Packet Networks 已经在为其客户托管 Centriq 2400 参考平台了,尽管这些平台还没出现在 Packet 的裸机定价列表上。
此外,Illumina 展示了其运行在 Centriq 2400 平台上的高吞吐量生物信息工具。Canonical 展示了运行在 Centriq 2400 上的 OpenStack 平台,Red Hat 展示了运行在 Centriq 2400 上的 Enterprise Linux for ARM。高通还展示了其内部设计的 MongoDB 演示,其中有 Varnish 服务网络应用、HHVM 网络服务器和 Spark 内存社交图谱。
Anand Chandrasekher 在结束高通的演讲时让我们瞥见了 Centriq 的未来。遵照高通的执行优先(execute first)规则,他并没说太多。Chandrasekher 只是揭示了下一代 Centriq 核心和处理器的代号,分别是 Saphira 和 Firetail;并且证实第四代正在开发之中。(Centriq 2400 实际上是高通的第二代 SoC 设计。)
高通的 Centriq 大致路线图
高通在 Centriq 发布会上带来一个生态系统的策略是很合理的。在此之前,在服务器生态系统内,还没有谁曾将 ARM 64 位数据中心生态系统的如此之多的部分放在同一个地方进行展示,而且这些部分还处于如此先进的开发阶段。
原文链接:https://www.nextplatform.com/2017/12/06/deep-dive-qualcomms-centriq-arm-server-ecosystem/
今天是《半导体行业观察》为您分享的第1484期内容,欢迎关注。
R
eading
推荐阅读(点击文章标题,直接阅读)
关注微信公众号 半导体行业观察 ,后台回复关键词获取更多内容
回复 科普 ,看更多半导体行业科普类的文章
回复 DRAM ,看更多DRAM的文章
回复 三星 ,看更多与三星公司相关的文章
回复 全面屏 ,看更多全面屏相关的文章
回复 双摄 ,看更多关于手机双摄像头的文章
回复 毫米波 ,看更多与毫米波相关的文章
回复 IPO ,看更多与半导体企业IPO相关的文章
回复 展会 ,看《2017最新半导体展会会议日历》
回复 投稿 ,看《如何成为“半导体行业观察”的一员 》
回复 搜索 ,还能轻松找到其他你感兴趣的文章!
- 半导体行业观察
- 摩尔芯闻