[原创] 神秘的AI芯片公司, Groq究竟想干嘛?

2019-10-25 14:00:14 来源: 半导体行业观察

来源:本文由公众号半导体行业观察(ID:icbank)翻译自「THE NEXT PLATFORM」,作者:Nicole Hemsoth,谢谢。


如果到目前为止,你对机器学习芯片初创公司Groq唯一了解的是,它是由谷歌的TPU的创始人之一领导的,他的目标是做推断。 别担心,你没有错过什么。


有关公司架构和方法的详细信息很少而且不透明,这是有目的的-并不是因为团队不确定他们所开发的内容。 在进行流片测试和一些内部基准测试之后,着眼于大型数据中心部署的下一代大型模型将是什么,该团队似乎充满信心,凭借的硬件,他们将在下一波AI设备浪潮中处于领先地位,其硬件灵感来自于编译器优先。 再说一次,所有的AI芯片制造商都有这种感觉。 但是,这可能是我们将要看到的第一个真正不同的东西,并且它的团队实际上可以像大型汽车制造商一样容易地找到超大规模数据中心。


在与Groq联合创始人兼首席执行官Jonathan Ross进行了漫长而笼统的交谈之后,我们得以对这种芯片的含义有所了解,而更重要的是,借助其中的一些元素,我们可以拼凑出这种差异化的图片。 对话的目的(除了撬动)是为我们在接下来的几个月左右的时间内深入了解架构奠定基础。 话虽如此,我们确实收集了一些有趣的架构和概念性数据,这些数据涉及如何构思,设计即将到来的芯片,以及Groq将如何使用正确的推理设备与市场相交,以填补大规模数据中心AI部署方面的空白。


是的,重复一下,我们是在专门讨论推理。 关于Groq的一些早期传闻都集中在它在训练市场的未来角色上,但是Ross坚持认为团队的出发点一直都在那里,特别是在看到谷歌的大规模模型部署以及如何运行这些模型之后。 “从第一次TPU部署的时候起,很明显,推断是更大的问题。 训练基本上是一个解决了的问题。 他们总能在准确性和精确性上有所突破,但训练所需的时间不再是一个大问题。 成本下降了,而且是一次性成本,不是循环成本,”Ross说。


“推理是一个本质上更大的市场。 训练与你拥有的机器学习研究人员的数量成比例,推理与查询或用户的数量成比例。 训练正在进行,推理正在进行,”他补充道。


“就此而言,推理也要困难得多。 可以通过花大钱解决问题来解决训练。 通过采用现有架构,将一堆芯片拼接在一起并获得足够的收益,可以在系统级别解决该问题。 有了推理,就可以将其部署在大量设备上,也许是数百万台服务器,每个服务器都有自己的推理设备。 ”此外,在这种情况下,每个芯片都必须高效,可靠。 “在训练中,您可以定期检查点并重新启动,但这并不意味着推理。 它是实时的,对延迟敏感的,并且需要超高性能和高效率,并且在大规模数据中心部署中更加复杂。


现在,我们可以在数据中心中训练大量,复杂的模型,但最终却无法部署,因为它太昂贵了。


Ross记得Google的Jeff Dean在TPU推出之前做过数学运算,并分享了他们虽然可以训练生产级别的模型,但由于价格太昂贵,因此他们无力使用现有架构来部署它们。 “如果他们要为所有人部署语音识别,那么Google必须将数据中心的数量增加2-3倍,再增加20到40个。 这些成本以十亿计。 如果您仅出于语音识别的目的,以另一种方式对运算成本进行数学计算,则他们必须将其计算能力提高一倍。 现在,Ross告诉我们,就每秒的操作而言,大约一半的Google计算在TPU上运行。 这是一组有趣的指标(尤其是最后一个指标),但它突出显示了Groq想要解决的规模推论中的一些关键问题。 不,这不是仿制的TPU。


Groq没有在谷歌的AI处理器,或者gpu、fpga,甚至我们知道的cpu上进行迭代。 在接下来的几个月里,我们将会了解更多(我们已经得到保证,一旦架构被允许,我们将深入研究),但是有一些值得注意的提示,似乎确实突出了Groq在数据中心推断市场上的潜在独特性。


以下是Ross为我们描述的体系结构的一些主题,这些主题提供了一些见解。


它比我们想象的更简约


“当我们的新工程师入职时,他们都对架构如此简单感到震惊,” Ross告诉我们。 这不一定令人惊讶,因为基于张量的硬件概念很新颖,但不一定很困难。


“我们现在在人工智能领域看到的很多东西都是对现有主题的巧妙变化:FPGA、CPU、GPU和TPU。 Ross解释说,有些正在朝着4000个核心cpu的方向发展,有些使用fpga,可以在几微秒内重新配置,还有一些正在尝试用更强大的核心或可独立编程的核心来制造gpu。 每一种方法都有自己的定制软件栈,即使它们只是对现有的设计进行了调整。 在这些选项或优势中没有太多的重用潜力。 所以问题就变成了,当它不能把你带到你需要去的地方的时候,它值得使用吗?ML是昂贵的,有对计算的渴望,有许多应用程序无法部署。 10%的改进不会让你成功,你必须做一些完全不同的事情。


“作为工程师,我们需要想出要构建的核心公理,而这在很大程度上违背了半导体领域的许多常识,这些常识认为专业化可以提高性能。


同样,我们受到他们被允许说的话的限制,但是很明显,这不是数据中心加速器(这意味着它不能嵌入PCIe)。 话虽如此,这是一个CPU。


然而,我们不应该认为这是一个传统的处理器,Ross说。 问题是,虽然通用cpu在串行方面做得很好,但是在协调成百上千个cpu的时候会有很多开销,这会消耗掉你的大部分收益。 ML不是串行处理,它专注于并行处理,虽然这听起来像是一个GPU应该做得很好,但这些设备中有太多无关的硬件,增益也会丢失。


Ross很谨慎,但他说,他们可以利用很多无关的硬件来获得显著的优势。 我们的目标是获得大量的并行吞吐量,现有的设备已经被挤得水泄不通,无法使它们高效、可伸缩和高性能。


Batch Size 1、批量稀疏性(Batch Sparsity)关键优势


如果你不是一个专业人员,关于推理设备batch sizes 的整个对话可能看起来不像训练中那么重要。 但这绝对很重要。 在训练中,一个人可能有大量的批处理来训练200万张图像,例如一次拍摄64张图像,没有真正的困难。 推理是另一回事。


对于较大的batch sizes ,如果有64个输入或1个输入,则可以获得相同的性能。 延迟和处理时间是相同的。 如果你只有一个输入,你就浪费了大部分的硬件。 因此,如果您正在处理batch sizes 为64的情况,并且您的输入要低得多(在许多用例中它们会低得多),那么还有很多工作要做。


考虑一个自动驾驶的例子。 如果你试图推断不同的道路标志是什么,但你只有三个在一个图像中,你得到了3/64的计算。 但如果你能运行batch sizes 为1,你得到100%的效率。 “那为什么这还不是一件事呢?”Ross说,到目前为止的问题是,人们一直在为他们所拥有的硬件而设计,而不是为他们所能拥有的东西而设计。


“大多数与我们交谈的人甚至不会考虑更大的batch sizes ,他们只会部署batch sizes 1,”Ross说。 “batch sizes  2或4是不相关的推理市场,我们所关注的,虽然可能适合一些工作负载。 这意味着一个巨大的内存带宽问题,这有助于解释为什么很少有人工智能硬件制造商在这里广泛强调。


这是另一个重要的补充。 历史上,人们只是使用大的batch sizes ,而没有考虑到batch sizes 1所带来的潜力。 “batch sparsity”的概念意味着您可以将正在运行的模型从一个输入更改为下一个输入,这意味着可以运行可以动态更改的高度自定义模型。 有了这个,想象一下语音识别推理在一个呼叫中心,有64个人同时呼叫。 在此之前,有一个模型可以为所有人服务,但是通过应用这个模型,该模型可以在它可以检测和运行的模型中有不同的变体(例如,“醉酒模型”或“清醒说话”模型或一种适合不同的口音)。 这导致了一个戏剧性的不同的用户体验(尽管只有时间才能说明价格点/速度/编程/其他价格)。


编译器先于硬件出现


上面所有这些都是可能的,因为该团队从编译器开始。


顺便说一下,当TPU出现的时候,Ross还不是一个硬件工程师。 他负责软件和编译方面的工作。 他说,它们之所以如此不同于任何面向市场的产品,原因就在于这个基点。


Groq的前六个月只花在编译器预硬件上。 只有在那之后,团队才开始研究什么是正确的架构。


“所以这是如何工作的是一个起点,四维张量,然后你意识到你没有构建4 d芯片,所以你搬到一个或两个维度与复杂的操作,然后意识到你不会把专用硬件芯片,直到所有的分解成更小的操作运行这些指令和剩下的设计才会发生如果你从硬件开始。


Ross告诉我们编译器已经设法将编译时间减少到秒。


用FP16保持真实


我们不需要告诉你,世界上所有的创新架构都无法与易用性相提并论。 Ross对Groq一贯的看法是,他们是由与他们交谈过的人想要什么来引领的(batch size为1就是一个例子)。 “我们看到的许多模型都很难量化。 像LSTM和RNNs这样的东西真的更喜欢浮点数。


“如果你只构建一种类型的数字,你会发现你无法支持大多数客户,因为不是每个人都愿意量化,”他补充道。


它可以处理训练,但那不是它的目的


随便说一句,好像没什么大不了的,Ross提到他们第一个测试的客户模型是一个RNN,他们大大超过了V100。


我们没有获得有关此细节或细节的详细信息,也没有得到这种情况的详细信息,但是他只是将其放在此处,我们也将如此。 如果完全可疑,他们可能会被认为是Groq故意保留有关训练能力的所有细节,这样他们就不会失去为训练提供多余东西或试图创建神话般的(耗能的)芯片的感觉。 同时为ML工作负载提供服务。 但这只是TNP方面的猜测。 如果是这样,这是一个明智的策略,但是如果我们看到Groq在2020年产生MLperf结果进行推理和训练,那么真正的考验就会到来(Ross说,他们将在2020年获得MLperf结果,但未提供其他细节)。


它是确定性的,并不依赖于局部性


但这里有个问题。 当我们听到“确定性”或者想到“局部性”的时候,这不是我们在compsci里想到的。 这是另一个问题,尽管这些术语不是我们想的那样,它们是两个主要的不同点。


Ross说,他的意思是,在编译时,用户将确切地(精确地)知道模型运行需要多长时间。 这听起来可能不是什么大事,但随着规模的扩大(尤其是在推理方面),它将改变游戏规则。


随着我们添加更多的组件,我们将在现有设备上投入数十亿个晶体管,然后将多个芯片更多地推到一起,在数据中心进行扩展变得更加困难。 有尾部延迟(如果你扩展到数千个芯片,如果只有一个是慢的,有60%的机会,每一个查询将是慢的,如果你在等待所有的结果回来),这将成为一个更大的问题,随着时间的推移。 “这种确定性设计意味着你可以将30个芯片连接在一起,端到端,并知道运行一次计算需要多少纳秒,这让你可以扩展,”Ross解释说。


Ross说,当他研究ML加速器以及它们在未来实现过程智能方面的需求时,一级工程关注点与现有的任何东西都是不同的。 他告诉我们,即使是像局部性这样保守的概念也不重要。 “我们一点也不关心地域”。 这是没有意义的,但也许随着时间的推移,它会有意义。


单一实现,多重设计


Ross开玩笑说,Groq的体系结构方法是SIMD,但在这种情况下,是单个实现,多个设计。


关于他们如何在多个表单因素和用例之间分割他们的设计思想,Ross不会讲得更详细。 我们试图将谈话集中在Groq在数据中心推论中的位置上,但是他确实说过,他们正在寻找那些用户无法在他们的模型上进行部署的领域,以及那些由于成本原因而无法使用的应用程序。


他说的是“很多经典的建筑划分,比如边缘和非边缘,在这里并不适用。 例如,人们可能认为汽车是边缘,但许多参与者需要大量的计算来解决他们的问题,所以他们希望部署在看起来更像经典数据中心的计算上。


其他因素的组合


Ross表示,他不确定分析师预测的2025年推理市场规模将达到600亿美元,但从谷歌的角度来看,推理的可承受性是一个很大的推动因素。


“这些年来我看到的一件事是,随着电脑变得越来越便宜,总开支也在增加。 在推论中也是如此,因为ML中有很多东西是不可行的,因为现在他们可以训练模型,但是他们负担不起部署它们。 他说,有了新的负担得起的推理选项,新的工作负载将完全冲击市场,并在更广泛的领域。


问题是优化,而不是从程序员的角度。 数据中心推理客户优化的目的是什么?什么最能驱动事物?当然,成本是核心,正如Ross所说,他只在汽车制造商的背景下提到能源消耗(尽管这当然很重要)。


如果推断出是谁驱动了成本最低的设备,但仍然只达到了10%的性能提升点,那么数据中心的人会怎么做呢?他们会为了25%的性能提升而选择稍微更热门、更贵的产品吗?50% ?门槛在哪里?如果出现了能够在数据中心中获得更好的数据的东西,而工作负载类别将接管地球上所有的处理工作,那么对于通用的cpu或加速器来说,这意味着什么呢?


在过去的几年中,我们已经在这个AI芯片领域关注了很多。 毫无疑问,当Groq最终准备好用这个最小的数据中心推理杀手给我们带来惊喜时,我们会说什么呢?顺便说一句,值得考虑的是,他们没有在大型架构方面有所表现,因为他们希望故事能够走到那里,而不希望它们看起来像我们以前没有的异国或专业芯片看过。 也许我们将要看到的是一个平淡无奇的东西,因为编译器是这部剧的主角。


*点击文末阅读原文,可阅读 英文原文。


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2108期内容,欢迎关注。

推荐阅读


中国台湾半导体业缘何逆市增长?

再谈集成电路成为一级学科

这种创新晶体管架构有望颠覆传统CMOS


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码 ,回复下方关键词,阅读更多

AI| 射频 |日韩芯片 |TWS耳机|碳化硅 |华为 集成电路 制程工艺



回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!


点击这里,可阅读
英文原文!
责任编辑:Sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论