英伟达最强挑战者：Graphcore的三大颠覆性技术

2020-08-25 08:59:40 来源: 李寿鹏

点击

最近几年，英伟达凭借GPU的天然优势，在人工智能市场大杀四方。而伴随着这个市场的日益壮大，越来越多的芯片厂对这个市场产生了浓厚兴趣，当中不少企业是直接奔着几乎被英伟达独占的那块那块AI处理器大蛋糕而来。

但Graphcore高级副总裁兼中国区总经理卢涛表示，大多数做AI处理器的公司都是希望做更好的GPU，去模仿GPU，但这是很难在激烈的竞争中立足的。这主要是因为英伟达有最大的社群，有成熟的渠道，有已经验证性能的产品。同时他们的生态好，耐力好，产品迭代的速度也快。

“同为AI处理器市场的挑战者，Graphcore想要做的是找到自己的赛道，而产品的核心是则去解决GPU解决不了的问题，支持创新，让客户的创新不用向硬件妥协，”卢涛说。其推出的IPU以及相对应的软件和配套就是Graphcore的攻城利器。（关于IPU及其详细原理介绍，可以从半导体行业观察之前的文章《AI芯片市场，必有Graphcore的一席之地》中看到）

性能暴增的二代IPU

Graphcore是由Nigel Toon和Simon Knowles在2016年成立，总部位于英国的布里斯托。按照该公司创始人Nigel Toon所说，Graphcore成立的目的就是想做一个非常灵活的处理器，一个能从零开始就专门针对AI而生的处理器架构，那就是他们的IPU，也就是Intelligence Processing Unit。

得益于团队资深的行业背景和领先的设计理念，Graphcore在成立后就就获得了3000万美元的融资。迄今为止，公司获得了超过4.5亿美元的融资，投资者人中不但有红杉资本、Atomico和Pitango等全球顶级的金融投资者。另外还有像宝马、Bosch、戴尔、微软和三星等全球知名企业战略投资人，这足以证明Graphcore产品的价值。其于2018年推出了第一款的IPU处理器GC2也已经被推向了超大规模数据中心、金融和医疗健康等多个应用领域，公司的估值也在这个发展过程中涨到了接近20亿美金。7月中，Graphcore对外公布了其第二代IPU GC200，这款全新的高性能产品将给市场带来新的影响力。

据介绍，新一代的芯片采用台积电的7纳米工艺制造，拥有大规模并行的 594 亿晶体管处理器，与之前的产品相比，MK2 实现了核数量增加 20%，片上 SRAM 增加 333%，可扩展性提升 16 倍。能跨 1472 个核提供约 250 万亿次每秒运算（TOPS），并通过 2.8Tb/秒的低时延结构互连 900MB 的处理器内存储。而其第一代芯片的绝大多数架构设计都可以延续到 MK2 平台，其处理图块包含核和片上 SRAM，它们在同一结构上互连，可以向片外扩展，以与其他 IPU 域通信。来到实际性能方面，这款芯片在多个场景的表现都优于竞争对手最新的芯片。

首先看NLP应用方面的表现，Graphcore将这颗新的IPU在流行的模型BERT-Base做了一个推理和一个训练的比较。在推理方面，与竞争对手的产品相比，相同时延的情况下，IPU可以做到两倍的吞吐量（如下图左）；在训练方面，在一机八卡的配置上面I，PU可以达到一个36.3小时的训练时间，这也比竞争对手的产品提升了25%。

而在运行语音合成的Deep Voice的时候，可以看到新IPU的提升更为明显。从下图可以看到，与GPU相比，IPU可以做到6倍左右的性能提升；对于新一代的IPU，这个性能提升提高到14倍。

来到机器视觉方面，IPU相较于GPU的优势也是相当明显。在谷歌最新模型EfficientNet的应用场景下，IPU的吞吐量性能提升了15倍，同时能把时延降到GPU的十几分之一。在训练方面也能做到7倍的性能提升。

在ResNeXt-101的推理上面，较之GPU，IPU更是可以带来7倍吞吐量的提升，同时把时延大大降低（约为前者的24分之一）。另外，IPU在ResNeXt的训练吞吐量可以较之GPU提升 30%左右。

在概率模型方面，运行MCMC时，IPU的性能较之GPU提升了15倍，训练时间降到后者的十五分之一；而在VAE的模型，则可以做到4.8倍的性能提升，训练时间同样也大幅度减少。

在做销售数据分析的MLP模型应用中，如下图所示，IPU也比GPU有不少的优势。

在分组卷积内核中，IPU在运行ResNeXt这种类型模型获得的Benchmark相对竞品也会有一个4倍到100倍的性能提升。

而在发布第二代IPU的时候，Graphcore还推出了一款即插即用的机器智能刀片式计算单元IPU-Machine: M2000（IPU-M2000）。在IPU和Poplar™软件栈的支持下，IPU-M2000不但便于部署，并支持可扩展至大规模的系统。这款纤薄的1U刀片机还可提供1个PetaFlop的机器智能计算，并集成了针对AI扩展优化的网络技术。

IPU-M2000还可构建成IPU-POD64这一Graphcore全新模块化机架规模解决方案，可用于极大型机器智能横向扩展，提供前所未有的AI计算可能性，以及完全的灵活性和易于部署的特性。它可以从一个机架式本地系统扩展到高度互连的超高性能AI计算设施中的1000多个IPU-POD64系统。

三大颠覆性技术创新

“随着IPU-M2000和IPU-POD64的推出，Graphcore进一步扩大了我们在机器智能领域的产品竞争优势。”Graphcore首席执行官Nigel Toon指出。

能做到这样，主要受惠于他们三方面的突破——计算、数据和通信。

关于计算方面，在上文介绍IPU的时候我们也对其性能有了基本的介绍。但卢涛进一步指出，这颗芯片集成了1472个独立的IPU-Tiles的单元，共有8832个可以并行执行的线程；其In-Processor-Memory也从上一代的300MB提升到900MB。然后每个IPU的Memory的带宽是47.5TB/s。此外还包含了IPU-Exchange以及PCI Gen4跟主机交互的一个接口；再加上IPU-Links提供的速度为320GB/s的芯片到芯片间互联。正是在这些卓越的配置支持下，完成了上文谈到的对GPU的领先。

来到数据方面，则需要重点介绍一下Graphcore提出的一个叫IPU Exchange Memory的概念.据卢涛介绍，这其实就是一个交换式存储技术。在Poplar软件的配合下，开发者就能利用Graphcore独特的Exchange Memory通信访问Streaming Memory。这甚至可以支持具有数千亿个参数的最大模型。每个IPU-M2000都可以支持密度高达450GB的Exchange Memory，以及前所未有的180TB/秒的带宽。

“如果跟英伟达当前使用HBM技术的产品比较，Graphcore在M2000的每个IPU-Machine里面通过IPU Exchange Memory技术，能提供了将近超过100倍的带宽以及大约10倍的容量，这对于很多复杂的AI模型算法是非常有帮助的。”卢涛说。

在通信方面，则依赖于Graphcore的IPU Fabric结构。据卢涛介绍，IPU-Fabric主要是由IPU-Link、IPU Gateway Link和IPU over Fabric三种网络一起组成的。其中IPU-Link为一个机架（rack）内的IPU提供一个互相通讯的接口；IPU Gateway Link是给机架和机架之间的横向网络扩展提供支持；而IPU over Fabric则是一个能够把Graphcore的IPU集群和X86的集群进行非常灵活以及低延时、高性能组合起来的网络。

值得一提的是，Graphcore创建了一个新的Graphcore GC4000 IPU-Gateway芯片，该芯片可提供令人难以置信的低时延和高带宽，每个IPU-M2000均可提供2.8Tbps。那就使得即使在从数十个IPU扩展到数以万计个IPU的过程中，IPU-Fabric技术也能使系统的通信时延几乎保持恒定。

“将强劲算力与网络能力相结合，我们能够处理全球最先进、最复杂的算法模型。”Graphcore高级副总裁兼中国区总经理卢涛说。

愿景是画第三个圆

在问到对Graphcore的定位和公司IPU的目标时，卢涛指出，Graphcore及其IPU的最终目的是为了从根本意义上解决AI的问题。他指出，当前在AI领域，主要是依赖于CPU和GPU两大平台。但无论是前者的标量计算，还是后者的矢量计算，他们在AI领域都有涉及不了的领域。

“如果用画圆来代表每个计算平台的应用范围，那么现在CPU和GPU各有一个圆，我们希望IPU将会成为第三个圆。这个圆不但有自己独特的优势领域，在某些市场也会和CPU和GPU竞争。”卢涛强调。

作为一个新的产品形态，IPU如果想推动客户从其他平台迁移过来，无疑会是一个重大的挑战。但卢涛表示，Graphcore将会通过提升产品的价值、降低迁移的成本和建立完善的生态三方面入手，让客户认可他们的产品。在市场策略方面则大概会有三个梯度，分别是渠道合作伙伴、OEM合作伙伴和全球的云合作伙伴。这会推动IPU在多个领域全面开花。

“Graphcore的愿景是希望IPU能够帮助创新者在机器智能中实现下一步算法的突破。Graphcore芯片架构的特点能够为模型开发、算法迭代带来速度的提升，从而实现进一步的突破。”Graphcore中国区技术应用总负责人罗旭强调。

“我们认为，CPU以后会退居做一些更擅长的领域（如逻辑性处理）。大量的智能处理可能会在GPU和IPU这样的一些智能计算平台上完成。所以我觉得这个市场未来的空间巨大。”卢涛补充说。

责任编辑：sophie

Graphcore