一款192核的云原生CPU

2023-05-26 18:50:19 来源: 半导体芯闻

点击

日前，芯片初创企业Ampere Computing 对外发布了其全新 AmpereOne系列处理器。

据介绍，该处理器使用台积电5nm工艺制造，拥有多达 192 个单线程 Ampere 核，内核数量为业界最高。此外，该芯片还增加了 8 通道的 DDR5 内存和128 通道的 PCIe Gen5 IO，搭配网格拥塞管理（Mesh Congestion Management）、细粒度电源管理（Fine Grained Power Management）和内存标签（Memory Tagging）等功能，为高性能、高利用率的多用户环境（如云）提高了性能一致性、可管理性和安全性。

Ampere首席产品官 Jeff Wittich透露：“AmpereOne 能为 Ampere 客户的云原生工作负载提供最高的整体性能、可扩展性和密度。此外，得益于低延迟和高吞吐量，Ampere 云原生处理器在 AI 推理方面较其他 CPU 有 2 倍以上的性能优势。”

在笔者看来，AmpereOne能获得这样的成就，除了上述配置拉满的规格外，还与公司在这一代产品上采用了自研内核以及Chiplet设计有着莫大的关系。

自研内核加持

如下图所示，外媒nextplatform之前根据公开信息整理了Ampere Computing 的路线图，我们可以看到，在AmpereOne之前，Ampere Computing公司打造的云原生处理都是直接采用的Arm公司内核N1内核。但来到了AmpereOne，公司则直接推出了自研的Ampere内核。

“Ampere 的自研云原生核（Custom Cloud Native Core）是打破传统计算限制的下一步，目前业内没有其他可以与之相匹敌的 CPU 产品，它可助力实现单机架性能最大化的云规模（Cloud Scale）。”Jeff Wittich强调。

他进一步指出，这个基于自研内核打造的产品与之前的产品不会存在任何的兼容问题，因为AmpereOne系列处理器和Ampere Altra系列的处理器都是基于ARM ISA的。换而言之，所有能够在Ampere Altra系列处理器上运行的代码，在全新的AmpereOne系列处理器上运行也没有问题，不需要任何改动。

“我们甚至看到有很多的用户在相同环境里同时运行Ampere Altra系列处理器和 AmpereOne系列处理器，因为同样的代码可以在两个产品系列上面都能运行，在Ampere Altra系列处理器执行的工作也能够在AmpereOne系列处理器上执行。”Jeff Wittich接着说。

从Ampere Computing 提供的数据我们可以看到，自定义的内核依旧采用单线程的设计，这和公司一直坚持的理念是一致的，那就是通过单线程提供确定性性能和绝对隔离。Jeff Wittich在回答问题的时候也指出，采用单路的服务器，复杂程度降低了，性能却提升了，性价比也更高，因此有越来越许多的用户转向拥抱单路服务器。

具体到每个核心的配置上，据介绍，该芯片每个核心都有 64 KB 的 L1 数据缓存和16 KB的 L1 指令缓存。此外，每个内核都有一个专用的 2 MB L2 缓存，这个数据是之前 Ampere Altra 和 Ampere Altra Max CPU 中使用的 Neoverse N1 和 N1+ 内核上的 L2 缓存的两倍。按照这个数据，意味着AmpereOne系列处理器上拥有 384 MB 的二级缓存。

在Ampere Computing的介绍中，并没有披露公司第一个自主研发内核的每时钟指令 (IPC) 增益，但强调了公司在这方面具有功率效率和面积效率方面的改进。他们分享说到，在云环境中运行虚拟机（VM），与96核的AMD Genoa或者60核的英特尔Sapphire Rapids对比，AmpereOne每机架运行的虚拟机数量是AMD Genoa的2.9倍，是英特尔Sapphire Rapids的4.3倍。

基于公司卓越的硬件设计团队，再借助对初创公司OnSpecta的收购获得的技术和人才，Ampere Computing这款全新产品在AI性能上的表现也很出色。据介绍，在生成式AI方面，相比AMD Genoa，AmpereOne可每秒多提供2.3倍的帧数（图像），在运行稳定的扩散模型中胜出。此外，在运行DLRM模型的推荐系统中，通过AmpereOne响应的查询数量是AMD Genoa的每秒查询数量的两倍多。这足以证明该芯片在AI方面的实力。

“通过Ampere云原生处理器进行AI推理，可获得卓越的可扩展性和性能，也打破了效率的瓶颈，这正是令云服务提供商（CSPs）困扰的问题，因为使用GPU会带来极高的能耗，而且容量扩展会受到制约，可部署的服务器数量也会受到限制。而Ampere的云原生处理器通过提供卓越的性能和能效，恰好能够解决这些行业痛点，尤其是对于AI推理。”Jeff Wittich说。

Chiplet设计助攻

对于AmpereOne处理器来说，另一个值得关注的亮点在于其采用了Chiplet的设计。

众所周知，在过去几年里，因为受到制程工艺和成本的限制，大型芯片在过去几年逐渐从传统的单芯片模式转向了Chiplet模式，如AMD和Intel就是其中的佼佼者，就连一直被看作单芯片设计最坚定的支持者英伟达，也传言将要投身Chiplet设计，由此可见这个并不算新的技术在提高芯片性能中的重要性。

而在Jeff Wittich看来，Ampere在新芯片中为大量采用Chiplet设计，这带来了多方面的优势，其中第一点就是能够有更高的灵活度，第二点就是加快了整个芯片设计周期。

除了以上两点外，在整个AmpereOne系列处理器中采用Chiplet的设计，其实是为了更好地服务我们的用户。因为Ampere在Chiplet设计中实现了特定的拓扑结构，以及单一的计算裸片（里边分布着全部的内核），同时还有单一大网格结构，这样就可以助力客户提供平衡的高性能，反观其他设计，则要求数据从一个计算的Chiplet传输到另一个Chiplet，这样就会带来延迟的问题。

Jeff Wittich举例说道，通过将System Level Cache放在了计算芯片（Compute Die）上，公司能够帮助降低核与系统级缓存（System Level Cache，SLC）之间的延迟。这也是Ampere把极大的Mesh放在单个的计算芯片上的原因——可以帮忙避免造成访问时间（Access Time）和系统级缓存之间的不平衡，或者造成某些核无法访问系统级缓存。

“所以我们实现了最佳的Chiplet架构之后，产品上市的速度就会更快。除此之外，我们的芯片还可以提供更高的可扩展性，并提供人们所期待的现代云原生产品的最佳性能——也就是我们基于创新所打造出来的AmpereOne系列处理器。”Jeff Wittich说。他进一步出，Ampere已经在高性能、高效率的云原生处理器中占领了一席之地，并一直引领市场，公司也相信会持续扩大这方面的领先优势。

正如该公司创始人Renée James所说：“我们的行业正在迎来一个全新的时刻，我们也应当拥抱变革。它将决定着行业未来的增长。云技术开创了一个全新的世界和新的软件开发方法。微处理器也该做同样的事情。”

责任编辑：sophie

Ampere CPU