英伟达最强挑战者:Graphcore的三大颠覆性技术
2020-08-25
08:59:40
来源: 李寿鹏
点击
最近几年,英伟达凭借GPU的天然优势,在人工智能市场大杀四方。而伴随着这个市场的日益壮大,越来越多的芯片厂对这个市场产生了浓厚兴趣,当中不少企业是直接奔着几乎被英伟达独占的那块那块AI处理器大蛋糕而来。
但Graphcore高级副总裁兼中国区总经理卢涛表示,大多数做AI处理器的公司都是希望做更好的GPU,去模仿GPU,但这是很难在激烈的竞争中立足的。这主要是因为英伟达有最大的社群,有成熟的渠道,有已经验证性能的产品。同时他们的生态好,耐力好,产品迭代的速度也快。
“同为AI处理器市场的挑战者,Graphcore想要做的是找到自己的赛道,而产品的核心是则去解决GPU解决不了的问题,支持创新,让客户的创新不用向硬件妥协,”卢涛说。其推出的IPU以及相对应的软件和配套就是Graphcore的攻城利器。(关于IPU及其详细原理介绍,可以从半导体行业观察之前的文章《AI芯片市场,必有Graphcore的一席之地》中看到)
性能暴增的二代IPU
Graphcore是由Nigel Toon和Simon Knowles在2016年成立,总部位于英国的布里斯托。按照该公司创始人Nigel Toon所说,Graphcore成立的目的就是想做一个非常灵活的处理器,一个能从零开始就专门针对AI而生的处理器架构,那就是他们的IPU,也就是Intelligence Processing Unit。
得益于团队资深的行业背景和领先的设计理念,Graphcore在成立后就就获得了3000万美元的融资。迄今为止,公司获得了超过4.5亿美元的融资,投资者人中不但有红杉资本、Atomico和Pitango等全球顶级的金融投资者。另外还有像宝马、Bosch、戴尔、微软和三星等全球知名企业战略投资人,这足以证明Graphcore产品的价值。其于2018年推出了第一款的IPU处理器GC2也已经被推向了超大规模数据中心、金融和医疗健康等多个应用领域,公司的估值也在这个发展过程中涨到了接近20亿美金。7月中,Graphcore对外公布了其第二代IPU GC200,这款全新的高性能产品将给市场带来新的影响力。
据介绍,新一代的芯片采用台积电的7纳米工艺制造,拥有大规模并行的 594 亿晶体管处理器,与之前的产品相比,MK2 实现了核数量增加 20%,片上 SRAM 增加 333%,可扩展性提升 16 倍。能跨 1472 个核提供约 250 万亿次每秒运算(TOPS),并通过 2.8Tb/秒的低时延结构互连 900MB 的处理器内存储。而其第一代芯片的绝大多数架构设计都可以延续到 MK2 平台,其处理图块包含核和片上 SRAM,它们在同一结构上互连,可以向片外扩展,以与其他 IPU 域通信。来到实际性能方面,这款芯片在多个场景的表现都优于竞争对手最新的芯片。
首先看NLP应用方面的表现,Graphcore将这颗新的IPU在流行的模型BERT-Base做了一个推理和一个训练的比较。在推理方面,与竞争对手的产品相比,相同时延的情况下,IPU可以做到两倍的吞吐量(如下图左);在训练方面,在一机八卡的配置上面I,PU可以达到一个36.3小时的训练时间,这也比竞争对手的产品提升了25%。
而在运行语音合成的Deep Voice的时候,可以看到新IPU的提升更为明显。从下图可以看到,与GPU相比,IPU可以做到6倍左右的性能提升;对于新一代的IPU,这个性能提升提高到14倍。
来到机器视觉方面,IPU相较于GPU的优势也是相当明显。在谷歌最新模型EfficientNet的应用场景下,IPU的吞吐量性能提升了15倍,同时能把时延降到GPU的十几分之一。在训练方面也能做到7倍的性能提升。
在ResNeXt-101的推理上面,较之GPU,IPU更是可以带来7倍吞吐量的提升,同时把时延大大降低(约为前者的24分之一)。另外,IPU在ResNeXt的训练吞吐量可以较之GPU提升 30%左右。
在概率模型方面,运行MCMC时,IPU的性能较之GPU提升了15倍,训练时间降到后者的十五分之一;而在VAE的模型,则可以做到4.8倍的性能提升,训练时间同样也大幅度减少。
在做销售数据分析的MLP模型应用中,如下图所示,IPU也比GPU有不少的优势。
在分组卷积内核中,IPU在运行ResNeXt这种类型模型获得的Benchmark相对竞品也会有一个4倍到100倍的性能提升。
而在发布第二代IPU的时候,Graphcore还推出了一款即插即用的机器智能刀片式计算单元IPU-Machine: M2000(IPU-M2000)。在IPU和Poplar™软件栈的支持下,IPU-M2000不但便于部署,并支持可扩展至大规模的系统。这款纤薄的1U刀片机还可提供1个PetaFlop的机器智能计算,并集成了针对AI扩展优化的网络技术。
IPU-M2000还可构建成IPU-POD64这一Graphcore全新模块化机架规模解决方案,可用于极大型机器智能横向扩展,提供前所未有的AI计算可能性,以及完全的灵活性和易于部署的特性。它可以从一个机架式本地系统扩展到高度互连的超高性能AI计算设施中的1000多个IPU-POD64系统。
三大颠覆性技术创新
“随着IPU-M2000和IPU-POD64的推出,Graphcore进一步扩大了我们在机器智能领域的产品竞争优势。”Graphcore首席执行官Nigel Toon指出。
能做到这样,主要受惠于他们三方面的突破——计算、数据和通信。
关于计算方面,在上文介绍IPU的时候我们也对其性能有了基本的介绍。但卢涛进一步指出,这颗芯片集成了1472个独立的IPU-Tiles的单元,共有8832个可以并行执行的线程;其In-Processor-Memory也从上一代的300MB提升到900MB。然后每个IPU的Memory的带宽是47.5TB/s。此外还包含了IPU-Exchange以及PCI Gen4跟主机交互的一个接口;再加上IPU-Links提供的速度为320GB/s的芯片到芯片间互联。正是在这些卓越的配置支持下,完成了上文谈到的对GPU的领先。
来到数据方面,则需要重点介绍一下Graphcore提出的一个叫IPU Exchange Memory的概念.据卢涛介绍,这其实就是一个交换式存储技术。在Poplar软件的配合下,开发者就能利用Graphcore独特的Exchange Memory通信访问Streaming Memory。这甚至可以支持具有数千亿个参数的最大模型。每个IPU-M2000都可以支持密度高达450GB的Exchange Memory,以及前所未有的180TB/秒的带宽。
“如果跟英伟达当前使用HBM技术的产品比较,Graphcore在M2000的每个IPU-Machine里面通过IPU Exchange Memory技术,能提供了将近超过100倍的带宽以及大约10倍的容量,这对于很多复杂的AI模型算法是非常有帮助的。”卢涛说。
在通信方面,则依赖于Graphcore的IPU Fabric结构。据卢涛介绍,IPU-Fabric主要是由IPU-Link、IPU Gateway Link和IPU over Fabric三种网络一起组成的。其中IPU-Link为一个机架(rack)内的IPU提供一个互相通讯的接口;IPU Gateway Link是给机架和机架之间的横向网络扩展提供支持;而IPU over Fabric则是一个能够把Graphcore的IPU集群和X86的集群进行非常灵活以及低延时、高性能组合起来的网络。
值得一提的是,Graphcore创建了一个新的Graphcore GC4000 IPU-Gateway芯片,该芯片可提供令人难以置信的低时延和高带宽,每个IPU-M2000均可提供2.8Tbps。那就使得即使在从数十个IPU扩展到数以万计个IPU的过程中,IPU-Fabric技术也能使系统的通信时延几乎保持恒定。
“将强劲算力与网络能力相结合,我们能够处理全球最先进、最复杂的算法模型。”Graphcore高级副总裁兼中国区总经理卢涛说。
愿景是画第三个圆
在问到对Graphcore的定位和公司IPU的目标时,卢涛指出,Graphcore及其IPU的最终目的是为了从根本意义上解决AI的问题。他指出,当前在AI领域,主要是依赖于CPU和GPU两大平台。但无论是前者的标量计算,还是后者的矢量计算,他们在AI领域都有涉及不了的领域。
“如果用画圆来代表每个计算平台的应用范围,那么现在CPU和GPU各有一个圆,我们希望IPU将会成为第三个圆。这个圆不但有自己独特的优势领域,在某些市场也会和CPU和GPU竞争。”卢涛强调。
作为一个新的产品形态,IPU如果想推动客户从其他平台迁移过来,无疑会是一个重大的挑战。但卢涛表示,Graphcore将会通过提升产品的价值、降低迁移的成本和建立完善的生态三方面入手,让客户认可他们的产品。在市场策略方面则大概会有三个梯度,分别是渠道合作伙伴、OEM合作伙伴和全球的云合作伙伴。这会推动IPU在多个领域全面开花。
“Graphcore的愿景是希望IPU能够帮助创新者在机器智能中实现下一步算法的突破。Graphcore芯片架构的特点能够为模型开发、算法迭代带来速度的提升,从而实现进一步的突破。”Graphcore中国区技术应用总负责人罗旭强调。
“我们认为,CPU以后会退居做一些更擅长的领域(如逻辑性处理)。大量的智能处理可能会在GPU和IPU这样的一些智能计算平台上完成。所以我觉得这个市场未来的空间巨大。”卢涛补充说。
责任编辑:sophie
- 半导体行业观察
- 摩尔芯闻
最新新闻
热门文章 本日 七天 本月
- 1 国产EDA突破,关键一步
- 2 思尔芯第八代原型验证S8-100全系已获客户部署,双倍容量加速创新
- 3 在这个平台上,硬件创新跑出了“中国速度”
- 4 Ampere 年度展望:2025年重塑IT格局的四大关键趋势