IBM带来了一款新型AI芯片

2021-02-18 14:00:20 来源: 半导体行业观察

来源:内容由半导体行业观察(ID:icbank)编译自「 VentureBeat 」,谢谢。


IBM声称已开发出世界上第一批采用7纳米技术构建的用于AI推理和训练的高能效芯片。在2月初举行的2021年国际固态电路虚拟会议上,该公司的研究人员详细介绍了一种硬件加速器,该加速器支持多种模型类型,同时在所有模型类型上实现“领先”的电源效率。

AI加速器是一种专用硬件,旨在加速AI应用程序,特别是神经网络,深度学习和机器学习。它们在设计上是多核的,并且专注于低精度算术或内存计算,这两者都可以提高大型AI算法的性能,并带来更好的自然语言处理,计算机视觉和其他处理。

IBM表示,其四核的芯片(仍处于研究阶段)已针对具有许多不同的AI和机器学习模型的低精度工作负载进行了优化。与高精度技术相比,低精度技术需要更少的硅面积和功耗,从而提高了缓存利用率,并减少了内存瓶颈。这通常会减少训练AI模型的时间和精力成本。

上图:IBM建议的AI芯片的示意图。
图片来源:IBM

IBM的AI加速器芯片是少数采用超低精度“混合FP8 ”格式并以基于极端紫外线光刻的封装来训练深度学习模型的芯片。它也是率先采用电源管理的功能之一,能够通过在高功耗的计算阶段放慢速度来最大化性能。它提供了很高的持续利用率,表面上可以转化为卓越的实际应用性能。

据了解,这颗芯片用于用于“混合” FP8训练的时候,具有25.6Tflop / s的速度,而用于INT4推理,也可以做到102.4Top / s的速度。

混合8位浮点(HFP8)是IBM发明的一种格式(于2019年发布),它克服了标准8位(1个符号,5个指数,2个尾数)FP8浮点格式的局限性,在训练特定的8位浮点格式时效果很好标准神经网络,但在训练其他网络时会导致准确性降低。混合FP8使用4个指数和3个尾数位进行正向传播,然后使用5个指数和2个尾数位进行逆向传播,这大大提高了训练的准确性。

四个核通过一对宽的快速数据环链接在一起,一个用于顺时针传输,另一个用于逆时针传输。这些可以保持在芯片内关闭,也可以通过外部存储器或多个相同的芯片打开并路由,以处理更大的网络。环和内核是异步的,以允许不同的时钟速率分别交换功率以提高性能。

每个核心分为两个共享暂存存储器的子核心,然后每个子核心具有8×8引擎阵列,这些引擎经过优化,可通过用于浮点和定点计算的单独管道来加速卷积和矩阵乘法–一起提供FP16,HFP8,INT4和INT2具有AI训练和推理功能。

该36mm 2 芯片采用EUV光刻技术制造,通过内核上的0.75V和SRAM上的0.95V达到了上述性能指标。利用在编译网络时收集的网络知识,该芯片可以限制耗电的网络层,以将其保持在功耗预算之内。标称工作频率(0.55V内核,0.7V SRAM)产生1GHz时钟,并具有3.5Tflop / s / W FP8和16Top / s / W INT4。

在实验中,IBM表示,其AI芯片通常可达到80%以上的训练利用率和60%以上的推理利用率。此外,该芯片的性能和功率效率超过了其他专用推理和训练芯片。

上图:IBM研究的基准结果。
图片来源:IBM

IBM未来2-3年的目标是将新颖的AI芯片设计商业应用到一系列应用中,包括在云,隐私,安全性和自动驾驶汽车方面的大规模训练。IBM研究人员Ankur Agrawal和Kailash Gopalakrishnan在博客中写道:“我们的新AI核心和芯片可用于跨多个行业的许多新的云到边缘应用程序。” “例如,它们可以用于使用8位格式(相对于当前行业中使用的16位和32位格式)的视觉,语音和自然语言处理中的大规模深度学习模型的云训练。它们还可以用于云推理应用程序,例如语音到文本AI服务,文本到语音AI服务,自然语言处理服务,


★ 点击文末 【阅读原文】 ,可查看本文原链接。


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2590内容,欢迎关注。

推荐阅读


全球半导体供应链评估:中国什么水平?

下一个被收购的半导体巨头会是谁?

汽车将重塑半导体行业格局?


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码 ,回复下方关键词,阅读更多

晶圆|MCU |射频|封测|美国|苹果|华为|汽车芯片

回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!


点击阅读原文,可查看本文
原文链接!
责任编辑:Sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论