这家用一整块硅片做AI芯片的公司成功了?

2020-06-10 14:00:19 来源: 半导体行业观察

来源:内容由半导体行业观察(ID:icbank)编译自「 anandtech 」,谢谢。


Hot Chips 2019的亮点之一是Cerebras Wafer Scale Engine展示的一个与晶圆一样大的AI处理器芯片。在这个处理器中,包含1.2万亿个晶体管,而硅面积超过46225平方毫米。这是通过跨掩模版图案(cross-reticle patterning)中的突破性技术实现的。由于设计中内置了冗余级别,因此每次都能确保100%的良率。第一个WSE系统CS-1在Supercomputing 2019上展出。


CS1是一个完全集成的15U机箱,需要20 kW的功率才能通过12x 4 kW电源推入芯片(内置冗余)。为了便于访问,该芯片垂直安装,这在现代计算机世界中是很奇怪的。大多数机箱都是为CS-1定制的,包括工具和大量的商业3D打印。安德鲁当时还表示,虽然CS-1没有最低订购量,但是每架CS-1的成本都为“几百万美金”。

匹兹堡超级计算中心(PSC)今天发布的消息使这一数字降低到了大约200万美元。他们通过美国国家科学基金会(NSF)向PSC提供的500万美元拨款,将建造一个新的AI超级计算机,称为Neocortex。Neocortex的核心将是与Cerebras和Hewlett Packard Enterprise合作构建的硬件。

具体来说,Neocortex的核心将有两台CS-1机器。CS-1通过TensorFlow和pyTorch支持异步模型,该软件平台能够针对CS-1晶圆缩放引擎上的可用区域优化工作负载的大小。


这对CS-1机器将与‘extreme’共享内存HPE Superdome Flex服务器配合使用,该服务器包含32个Xeon CPU,24 TB DDR4、205 TB存储和1.2 Tbps的网络接口。Neocortex有望用于帮助AI研究人员训练他们的模型,涵盖医疗保健,疾病,发电,运输以及当日紧迫问题等领域。

该机器将在2020年末安装。PSC表示,  美国研究人员将免费使用Neocortex 。

去年,当我们与Cerebras交谈时,该公司表示他们已经有“很强的两位数”订单。当按下时,我设法将其从“ 12”提高到几十。当时为Argonne国家实验室订购了许多机器,我怀疑其他人现在正在投资。

有趣的是,在今年的Hot Chips 2020上,该公司将公开其第二代Wafer Scale Engine。推测一下,我认为这与WSE1宣布时相比还差一点,但是该公司似乎对其技术很感兴趣。

延伸阅读:这个iPad 大小的 AI 芯片会成为 AI 硬件的未来吗?


诸如Cerebras WSE之类的巨型AI芯片令人眼花缭乱,并且可以改变AI模型,采用不同的组织内存,计算和网络方式的新型AI芯片可能会重塑领先企业设计和部署AI算法的方式。供应商Cerebras Systems已开始测试 与iPad大小相同的 单个 芯片,该芯片的 数据传输速度比现有AI芯片快数千倍。这可能为开发人员提供尝试新型AI算法的机会。

风险投资公司Engineering Capital的首席工程师Ashmeet Sidana说:“这是一个巨大的市场机会,我看到正在对计算机体系结构进行全面的重新思考。”

Sidana指出,早就应该进行重新思考了。从历史上看,该行业一直专注于在传统计算机体系结构之上扩展简单的机器学习工作负载,而不是考虑构建AI特定计算机的最合适方法。

但是,随着Cerebras和Graphcore等初创企业以及像Intel这样的老牌企业(通过收购Habana Labs)竞相建造新一代的AI芯片,情况正在迅速改变。

在短期内,这些进步将对拥有大量AI的公司产生最大的影响。从长远来看,各种规模的企业将不得不重新考虑其IT,数据工程和数据科学流程,以保持领先地位。

解决传统AI硬件中的带宽瓶颈


Cerebras在推出晶圆级引擎(Wafer Scale Engine,WSE)芯片时震惊了整个行业:WSE芯片的尺寸相当于整个硅晶圆的大小,比最大的GPU大56倍,拥有的内核多78倍。但是其真正的优势在于它可以以多快的速度移动数据-快10,000倍。

研究公司Omdia的高级首席分析师兼处理器副总监Tom Hackenberg表示:“我在此解决方案中发现的最大创新就是将如此高的带宽集成到内存中。”

他说:“内存访问和配置是许多新创公司正在解决的技术之一,因为传统的大规模内存地址没有针对神经网络算法进行优化。”

传统的AI硬件架构的一个主要瓶颈在于在不同的处理内核,内存和其他芯片上的处理内核之间进行转换所花费的时间。因此,需要对AI算法进行优化,以最大程度地减少内核之间通信的需求。无论算法是在多个CPU上还是在多个GPU上运行,这都适用。

WSE上的内核比传统芯片上的互连更加紧密。这样可以加快内核之间以及内核与板载RAM(称为SRAM)之间的通信速度。而且,在与处理核心相同的基板上存储着更多的SRAM。WSE具有32 GB的SRAM,而传统芯片只有几十兆的SRAM。密集互连允许数据在内存和处理器之间以每秒9 PB的速度移动,在内核之间以每秒100 PB的速度移动。

在典型的计算机中,计算的中间步骤存储在主板上的DRAM中,该DRAM比SRAM慢得多,但比外部存储快。

Cerebras首席执行官Andrew Feldman说:“ DRAM就像杂货店的故事,而SRAM就像冰箱。” 他说,如果您想快速得到一些东西,最好把它放在冰箱里。杂货店有多大都没关系,因为如果您必须去杂货店买啤酒,就会错过一些足球比赛。

相比之下,最先进的GPU(例如Tesla V100)具有每秒900 GB的GPU内存带宽。

其他AI芯片提供商也正在缓解带宽瓶颈。例如, Graphcore的智能处理单元具有 300 MB的SRAM和每秒45 TB的内存带宽。

重新思考内存和计算的组织方式的工作最终可以解决传统系统的某些内存访问障碍。Hackenberg说,这还可以大大降低功率需求。这将吸引已经开始涉足AI加速器协处理器的云服务 超标量 -阿里巴巴,Alphabet,亚马逊和微软都是设计自己的 ASIC 解决方案的公司。

像所有新的芯片供应商一样,Cerebras必须投资使其大型AI芯片与TensorFlow和PyTorch等现有的AI开发框架协同工作。但是,关于WSE和类似的大型AI芯片在AI开发工作流程中如何发挥作用尚无定论。

Omdia的Hackenberg警告说:“这不仅需要每瓦性能,而且还需要大量的生态系统支持,服务和定价激励措施,才能抢夺AMD,英特尔,Nvidia或Xilinx等领导者的市场份额。”

Hackenberg说,这个市场上最大的供应商不仅提供规模经济,还提供多年的生态系统支持。为了从Beta测试过渡到商业可行性,这一领域的初创企业将需要提供大量激励措施,以促使买家放弃其传统供应商-包括明显的性能提升,成本节省或两者兼而有之。

Hackenberg说:“长期关系和生态系统支持经常被初创公司低估。”

其他人则对巨型AI芯片和更新的架构证明其价值的潜力充满希望。

IT咨询公司Globant的技术副总裁Agustin Huerta表示,芯片提供商正在使公司更容易使用更大的AI芯片。

Globant的AI和流程自动化工作室负责人Huerta说:“以我个人的经验,与传统的CPU供应商不同,芯片供应商也愿意比以往更接近企业,并提供大量的投入。”

他说,芯片提供商正在直接与最终用户合作,以针对不同的用例和架构优化其芯片。该支持使AI团队不必进行这项工作。这也意味着AI团队可以编写一次算法,然后针对各种不同的目标生产环境重新编译该算法。

也就是说,Huerta希望更大的芯片将主要用于以AI应用程序为业务核心的企业或提供AI开发服务的公司。巨型AI芯片将使他们能够投入更多时间来微调模型或在其他培训无法返回预期结果的情况下确定案例。但是,对于其他许多公司而言,这些芯片将不再适用-至少在不久的将来不会。

他说:“大多数企业,如银行或零售商,几乎都不会使用这些解决方案,因为太多的计算能力使他们无法真正利用它。” “对于更主流的企业使用而言,更大的芯片可能会浪费资源。”

确实,哈肯伯格警告说,在现阶段,只有更大的筹码才能吸引人们的观点。通过采用更小的购买和运行成本更低的芯片,许多企业将看到更高的投资回报率。实际上,市场趋势是朝着较小的芯片发展。他说:“ Smaller倾向于提高每瓦性能,并提高生产良率。”

传统的处理器供应商正在尝试开发成本更低的AI硬件,例如小芯片(可集成到更大的异构处理器中以增加带宽并运行专门算法的模块化芯片)。

Huerta认为,这些较小的低功耗芯片可以使AI在无法可靠连接到网络的设备上使用AI,例如机器人手臂,交付机器人和远程设备自动化。

巨型AI芯片具有不同的功能。Cerebras的Feldman认为,更大的芯片有望开辟AI研究的新途径。

他说:“当您拥有允许不同功能的新硬件时,可以编写不同的模型。” 到目前为止,数据科学家仅研究了针对GPU特性的一部分算法。他们正在编写相同类型的算法以更快地运行。

但是,Feldman说,他希望研究人员能够探索新的模型,这些模型可能包括更大的网络,更深的网络或极为稀疏的网络。

相反,Engineering Capital的Sidana表示,首席信息官应着重于基础知识,首先要建立能够将新模型持续投入生产的机器学习管道。对于许多CIO来说,生产数量将是个位数,而AI强国将生产数千个模型。

不管是哪种情况,负责监督AI计划的CIO都需要重新评估他们购买硬件和服务的方式,Capital Engineering的Huerta说。

他说:“许多公司的失误之一就是购买了不足的硬件来满足AI领域的当前需求。” 许多IT部门依靠自己对传统服务器需求的了解,并根据过去使用的相同因素做出投资决策,而没有意识到部署AI的特定基础架构要求。

他说,CIO必须确保其团队准确地预测其AI需求,以避免过度使用从未真正使用过的功能。该分析还可以帮助您确定AI基础设施不足的地方,例如,在运行关键任务应用程序时会导致长时间的延迟。

根据Huerta的经验,公司面临的主要挑战是确定哪种硬件或云解决方案适合其特定的计算需求。在许多情况下,与购买和运行自己的服务器相比,从云提供商那里租用AI处理功能可能给公司带来更大的投资回报率。他说,关键是要从软件开发,云和硬件的角度与合作伙伴合作,以全面了解需求和成本。

Sidana说,成功的AI也需要保持警惕。AI团队在失去准确性时必须能够重新训练模型。传统企业可能要花费数月的时间来重新训练模型,而最老练的公司则每天或每分钟都这样做。

Sidana说:“大多数企业仍需改进几个数量级。”

Sidana说,CIO也不应低估保持高性能AI系统正常运行所需的数据工程。“随着我们建造更快的设备并且公司收集更多的数据,大规模管理,操纵和交付AI计算的能力经常被忽视。”

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2336期内容,欢迎关注。

推荐阅读


王东升再创业,剑指联发科、海思?

3D NAND Flash技术将走向何方?

“真金白银”砸出来的美国半导体


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码 ,回复下方关键词,阅读更多

两会|台积电| RISC-V |汽车芯片 AI |EDA |中美|晶圆|射频|



回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!

责任编辑:Sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论