[原创] 通用型AI芯片突破“内存墙”瓶颈指日可待
2020-09-20
14:00:19
来源: 半导体行业观察
当下,人工智能(AI)产业正处于从起步向成熟阶段的过渡时期,相关应用也处于探索阶段,因此,各种专用的AI芯片层出不穷。然而,如果要针对某一个应用场景做ASIC化的产品,可能做出来的瞬间就已经落后了。另外,因应用所处环节不同,ASIC化并非完全不可行,例如在端侧的一个固定应用场景中,场景很明确就可通过ASIC的方式来做产品,但是,越靠近云端,应用变化越大,在这样的变化下很难部署某一ASIC化的处理器。无论是云端还是云边端,或者企业应用市场,都对算力要求非常高,因此,通用AI处理器就成为了更加合理的选择。
与专用AI芯片相比,通用型AI处理器的应用范围更加广阔,更代表着AI硬件的发展方向,在这一领域,当下最为流行的便是GPU和CPU了。
随着应用需求向更广和更深层面拓展,GPU在AI领域的应用遇到了越来越明显的瓶颈,首先,GPU和CPU属于传统处理器,并不是为AI计算专门设计的,在AI发展的初期阶段,它们能够胜任,但在接下来的第二、第三……发展阶段,在更为复杂的模型和技术面前,其计算架构局限性开始逐步体现出来。
正是在这种背景下,IPU出现了。该处理器是由英国初创企业Graphcore发明的,旨在支持机器智能的新计算需求。其第一代IPU中的1200多个处理器内核可以分别处理完全独立的任务,并且能够彼此通信以支持完整的多指令多数据并行操作。而这些正是下一代机器智能的基本要求。
日前在中关村论坛上,Graphcore联合创始人兼首席执行官Nigel Toon和Graphcore高级副总裁兼中国区总经理卢涛受邀出席,并分别在中关村论坛云上论坛和全球科技青年论坛上发表演讲。
据Graphcore联合创始人兼首席执行官Nigel Toon介绍,IPU在训练和部署中都可以支持具备高效稀疏计算的大型模型。IPU不仅可以推动创新开发,还可以有效部署这些新模型,更高效的计算可以降低系统总成本。用户可以在训练和推理中使用相同的IPU硬件,并且可以灵活更改每个CPU所调用的IPU数量。
图:Nigel Toon,Graphcore联合创始人兼首席执行官
总体来看,Graphcore的业务主要分为三部分:一,专为AI从零设计的IPU处理器;二 Poplar SDK和开发工具;三,IPU平台,例如IPU-Machine、可以通过浪潮和戴尔购买的IPU服务器,以及可大规模横向扩展的IPU-Pod64。
今年7月,Graphcore发布了第二代 IPU(Mk2 IPU),Mk2 IPU是一个基于台积电7nm制程技术的AI处理器,在823平方毫米的芯片上集成了594亿个晶体管。Mk2 IPU拥有250 TFLOPS的AI算力,以及900MB的处理器内存储容量。这样一个处理器里具有1472个独立的处理器核心以及将近9000个独立的并行处理器线程,相对于第一代IPU(Mk1 IPU),系统级性能提高了8倍以上。
该公司还新推出了IPU-Machine: M2000(IPU-M2000),这是一款纤巧的数据中心刀片,能够提供1 PFLOP的AI计算能力,并通过专用IPU内置了AI横向扩展网络架构IPU-Fabric。无论您是仅需要一台IPU-M2000的初创公司,还是希望将数千台IPU-M2000连接在一起的云公司,IPU-Machine:M2000(IPU-M2000)都可以满足您的需求。
与竞品相比,IPU在存储、通用性、软件支持和生态方面有诸多亮点。
在存储方面,GPU在进行AI计算时,使用的是HBM,它能够实现每秒1.6 TB的带宽和40 GB的容量。Graphcore则提出了一个创新的概念:IPU Exchange Memory。据Graphcore高级副总裁兼中国区总经理卢涛(Jason Lu)介绍:IPU Exchange Memory包含了片上存储和流存储,一个IPU-Machine:M2000的系统能提供每秒180 TB的带宽以及450 GB的容量,与GPU相比,在带宽和容量上都有非常大的提升。
图:卢涛(Jason Lu),Graphcore高级副总裁兼中国区总经理
具体来看,Graphcore提出的IPU Exchange Memory由两种存储构成,一种是处理器内存储(In-Processor Memory),就是片上存储,另外一种是流存储(Streaming Memory)。Mk2 IPU集成了900 MB的片上存储,而主流CPU的每个芯片上存储可能只有几十M。
与DDR或HBM相比,充足的片上存储能够提供50~100倍的带宽提升和时延的降低,Mk2 IPU中,存储和计算之间的距离大大缩短了。900 MB的片上存储和流存储使得大规模扩展成为可能。
CPU系统里面有一个MMU(内存管理单元,Memory Management Unit),其中有一个很重要的单位是TLB,TLB和外存之间能够进行Pageant操作。因为Mk2 IPU拥有900 MB的片上存储,可以通过远端的流存储来扩展几百GB的存储空间。而不需要像GPU或CPU那样,32 MB或者64 MB的片上存储需要不停地跟DDR,HBM做数据交互。
通过Mk2 IPU内片上存储和流存储技术相结合,IPU-M2000可获得总共450 GB的容量,片上存储带宽也获得了较大的提升。
对于与竞品的对比,卢涛提到了一个IPU的亮点,他表示:“NVIDIA声称他们构建的新数据格式TF32可以提高FP32算力。我们则认为,最标准的事情是最开放的,例如FP32是IEEE规定的数据格式,开发者能够基于FP32用GPU、IPU、CPU来进行计算,但如果开发者使用NVIDIA的TF32数据格式,就把自己困住了。”
在性价比比方面,IPU也有优势。卢涛用EfficientNet-B4的训练做了一个对比,如希望达到EfficientNet-B4在8个IPU-M2000的训练吞吐量,需要投资16个DGX A100,也就是超过300万美金的费用,外加相应的电费等其它花费。也就是说,如果使用DGX A100,为获取8个IPU-M2000的EfficientNet-B4计算性能,需要投入10倍以上的花费。
在软件和开发环境支持方面,Graphcore从零设计了以计算图(Graph)为核心的Poplar SDK,能够方便用户不论是使用单个IPU-M2000,还是单张PCIe卡,乃至1000个,甚至上万个IPU,都能获得完全一致的用户体验。Poplar SDK向上对接TensorFlow、PyTorch、ONNX、PaddlePaddle等行业标准机器学习框架。
今年7月,Graphcore开放了PopLibs源代码。卢涛表示:“Graphcore精神的一部分是将权力交给AI开发人员,方便他们自己进行修改、优化、创新。同时,Graphcore也在大力发展IPU开发者社区,其中很重要的一部分是已经在中国上线的IPU开发者云,可提供浪潮IPU服务器NF5568M5、戴尔IPU服务器DSS8440、以及IPU-Pod64等不同机型。IPU开发者云目前已经开放申请使用了。
开发者能够非常便捷地获取IPU,主要有两种方式:一是通过云,目前可以通过微软Azure和金山云来获取IPU;二是通过戴尔或浪潮的IPU服务器构建用户自己的私有云或自己预置的计算资源。
谈到开放性和创新性,卢涛表示:“Graphcore的IPU平台,无论IPU-M2000还是IPU-Pod64,在设计过程中都考虑到了芯片、系统、集群及软硬件结合的问题。Graphcore致力于赋能AI创新者进行新突破,如果仅仅沿着GPU的路线走,只能通过有限的方式来进行一些尝试。所以,为创新者、开发者、研究者提供支持是Graphcore研发的重要动力。如果是由于硬件桎梏导致您的优秀作品无法达到理想性能,Graphcore欢迎开发者在IPU上进行探索和尝试。”
谈到IPU的应用,卢涛表示,目前,IPU在超大规模数据中心与互联网、高校及研究机构、医疗及生命科学、金融、汽车这五大领域中发展较快,也受到了很多关注。到目前为止,Graphcore共发货IPU处理器超过一万颗,服务全球100多家不同机构。
“我们的一位早期客户,Carmot Capital在使用我们的产品训练其金融市场预测模型时,性能提升了26倍。”卢涛说,”微软在使用IPU帮助诊断肺炎和COVID-19的胸部X光影像时,速度提高了10倍,且准确性大大超过GPU。“
微软是Graphcore的早期的合作者,他们不仅将IPU技术用于其内部AI工作负载,还在2019年11月将IPU提供给其Azure云计算平台的用户使用,从而加速了AI创新者的工作。
另外,微软、宝马、博世、戴尔和三星等许多了解创新与应用之间关系的公司,都对Graphcore进行了投资。
对于中国市场,Nigel Toon直言:“新技术的最直接需求就在中国。中国在人工智能领域处于领先地位,中国认识到,人工智能创新与长远经济发展密不可分。目前,Graphcore的技术已经开始为一些非常成功的中国公司提供支持,并将助力推动中国那些发展最快、最具创新性的AI初创企业。不久以后,我们将能够更多地谈论一些Graphcore在中国的合作伙伴,并分享我们合作的细节。“
Graphcore的中文名定为“拟未”,该公司正在壮大中国团队,以便为客户提供完全本地化的响应和支持。Nigel Toon表示:“我们的目标是将拟未打造成一家重要的中国公司。”
中国高校合作方面,在IPU开发者云上线之后,Graphcore大概收到了三、四十所高校的顶尖AI实验室和研究机构的使用申请。Graphcore已开始与一部分机构探讨合作,有一些机构已在IPU开发者云上开展工作。
应用场景方面,卢涛认为中国市场在自然语言处理相关的应用方面发展非常迅速,且潜力巨大,对训练的算力要求也非常高,这对IPU而言非常重要。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第2438期内容,欢迎关注。
『
半导体第一垂直媒体
』
实时 专业 原创 深度
识别二维码
,回复下方关键词,阅读更多
晶圆|设备
|
SiC|封装|射频|台积电|华为|EDA
回复
投稿
,看《如何成为“半导体行业观察”的一员 》
回复
搜索
,还能轻松找到其他你感兴趣的文章!
责任编辑:Sophie