IBM全新人工智能芯片解读

2018-10-28 14:00:10 来源: 半导体行业观察

点击

━━ ━━

深度学习领域仍在不断变化，专家们认识到，如果芯片采用低精度数学方法来估算结果，那么神经网络可以用最少的能量实现最大化计算。这在移动设备和其他功率受限设备中特别适用。但是有些任务，如训练神经网络，仍然需要高精度。IBM最近在IEEE的超大规模集成电路（VLSI）研讨会上展示了一个原型芯片，它在两个方面的表现都非常出色。

人工神经网络训练和网络功能执行（称为推理）之间的需求脱节，一直是设计加速人工智能功能芯片的难点所在。IBM的新型加速人工智能芯片能够实现该公司所称的“比例精度”。也就是说，它可以在32位、16位甚至1位或2位上进行训练和推理。

凯拉什•古帕拉克里什南（Kailash Gopalakrishnan）是IBM位于纽约州约克镇高地研究中心的项目负责人，他解释说：“你可做的最高精度训练为16位，而可做的最先进的推理是2位。该芯片涵盖了迄今已知的最佳训练和最佳推理。”

该芯片的这种能力源于两项创新，创新的目标是保持所有处理器部件都保有数据并且都在运行。

古帕拉克里什南说道：“传统（芯片）结构的问题之一是执行深度学习的利用率非常低。”即使芯片具有非常高的峰值性能，通常也只能利用20％到30％的资源来解决问题。而IBM的目标是始终保持在90％，且针对所有任务。

利用率低通常是由于芯片周围的数据流存在瓶颈。古帕拉克里什南的团队提出一个新数据流系统，可加速从一个处理引擎到下一个处理引擎的数据传输，可根据处理学习还是推理任务以及不同的精度来进行设置。

第二个创新是使用一种专门设计的“高速暂存”芯片存储。CPU或GPU上的传统缓存遵循通用计算所适用的某些规则，但会导致深度学习的延迟。例如，在某些情况下，缓存将一个数据块推送到计算机主存，如果神经网络推理或学习过程还需要这些数据，系统就必须等待数据被重新取回。

高速暂存区能够保持数据流经芯片的处理引擎，确保数据在恰当的时间处于正确的位置。

由此产生的芯片可以执行人工智能深度学习的3种主要方式——卷积神经网络（CNN）、多层感知器（MLP）和长短期记忆（LSTM）。这些技术在语音、视觉和自然语言处理方面占据重要地位。在典型训练精度16位的情况下，IBM的新型芯片每秒钟可进行1.5万亿次浮点运算；在推理最佳精度2位的情况下，每秒可进行12万亿次。

古帕拉克里什南指出，由于芯片是采用先进的硅互补金属氧化物半导体（CMOS）工艺（格罗方德公司的14纳米工艺）制造的，因此所有运算都聚集在一个相当小的区域内。这很重要，因为正如他所说：“在很多应用中，成本受到尺寸的限制。”

随着越来越多的初创公司涌现，大公司也不断推出新创意，IBM当然是这个是日益庞大的群体中的一员。尽管各家公司特点显著，但也有许多共同之处。深度学习初创公司Mythic的首席技术官戴夫•菲克（Dave Fick）表示：“这些解决方案是根据具体问题而提出的。”所以“每个人都在寻求相似的解决方案”是有道理的。本刊采访了Mythic和其他初创公司，它们的目标都是在2019年让客户真正满意。

至于这项技术何时可能在IBM沃森上或以其他形式进行商业化，目前还没有任何消息，但IBM的半导体研究副总裁穆克•什哈雷（Mukesh Khare）认为它能够发展和改进。他说：“这只是冰山一角。”

责任编辑：Sophie

IBM 深度学习

申请专栏作者

: 半导体行业观察

: 摩尔芯闻

IBM全新人工智能芯片解读

相关文章

最新新闻

热门文章本日 七天 本月

热门评论

热门搜索

IBM全新人工智能芯片解读

相关文章

最新新闻

热门文章 本日 七天 本月

热门评论

热门搜索

热门文章本日七天本月