IBM全新人工智能芯片解读
━━ ━━
深度学习领域仍在不断变化, 专家们认识到,如果芯片采用低精度数学方法来估算结果,那么神经网络可以用最少的能量实现最大化计算。这在移动设备和其他功率受限设备中特别适用。但是有些任务,如训练神经网络,仍然需要高精度。IBM最近在IEEE的超大规模集成电路(VLSI)研讨会上展示了一个原型芯片,它在两个方面的表现都非常出色。
人工神经网络训练和网络功能执行(称为推理)之间的需求脱节,一直是设计加速人工智能功能芯片的难点所在。IBM的新型加速人工智能芯片能够实现该公司所称的“比例精度”。也就是说,它可以在32位、16位甚至1位或2位上进行训练和推理。
凯拉什•古帕拉克里什南(Kailash Gopalakrishnan)是IBM位于纽约州约克镇高地研究中心的项目负责人,他解释说:“你可做的最高精度训练为16位,而可做的最先进的推理是2位。该芯片涵盖了迄今已知的最佳训练和最佳推理。”
该芯片的这种能力源于两项创新,创新的目标是保持所有处理器部件都保有数据并且都在运行。
古帕拉克里什南说道:“传统(芯片)结构的问题之一是执行深度学习的利用率非常低。”即使芯片具有非常高的峰值性能,通常也只能利用20%到30%的资源来解决问题。而IBM的目标是始终保持在90%,且针对所有任务。
利用率低通常是由于芯片周围的数据流存在瓶颈。古帕拉克里什南的团队提出一个新数据流系统,可加速从一个处理引擎到下一个处理引擎的数据传输,可根据处理学习还是推理任务以及不同的精度来进行设置。
第二个创新是使用一种专门设计的“高速暂存”芯片存储。CPU或GPU上的传统缓存遵循通用计算所适用的某些规则,但会导致深度学习的延迟。例如,在某些情况下,缓存将一个数据块推送到计算机主存,如果神经网络推理或学习过程还需要这些数据,系统就必须等待数据被重新取回。
高速暂存区能够保持数据流经芯片的处理引擎,确保数据在恰当的时间处于正确的位置。
由此产生的芯片可以执行人工智能深度学习的3种主要方式——卷积神经网络(CNN)、多层感知器(MLP)和长短期记忆(LSTM)。这些技术在语音、视觉和自然语言处理方面占据重要地位。在典型训练精度16位的情况下,IBM的新型芯片每秒钟可进行1.5万亿次浮点运算;在推理最佳精度2位的情况下,每秒可进行12万亿次。
古帕拉克里什南指出,由于芯片是采用先进的硅互补金属氧化物半导体(CMOS)工艺(格罗方德公司的14纳米工艺)制造的,因此所有运算都聚集在一个相当小的区域内。这很重要,因为正如他所说:“在很多应用中,成本受到尺寸的限制。”
随着越来越多的初创公司涌现,大公司也不断推出新创意,IBM当然是这个是日益庞大的群体中的一员。尽管各家公司特点显著,但也有许多共同之处。深度学习初创公司Mythic的首席技术官戴夫•菲克(Dave Fick)表示:“这些解决方案是根据具体问题而提出的。”所以“每个人都在寻求相似的解决方案”是有道理的。本刊采访了Mythic和其他初创公司,它们的目标都是在2019年让客户真正满意。
至于这项技术何时可能在IBM沃森上或以其他形式进行商业化,目前还没有任何消息,但IBM的半导体研究副总裁穆克•什哈雷(Mukesh Khare)认为它能够发展和改进。他说:“这只是冰山一角。”
- 半导体行业观察
- 摩尔芯闻
最新新闻
热门文章 本日 七天 本月
- 1 东方晶源YieldBook 3.0 “BUFF叠满” DMS+YMS+MMS三大系统赋能集成电路良率管理
- 2 NVIDIA重磅出击:三台计算机助力人形机器人飞跃
- 3 奕行智能(EVAS Intelligence)完成数亿元A轮融资,加速推出RISC-V计算芯片产品,共同助力新时代到来
- 4 智能驾驶拐点将至,地平线:向上捅破天,向下扎深根