[原创] Habana在云端训练市场的价值

2021-04-20 14:00:29 来源: 半导体行业观察


2019年底,英特尔斥资约20亿美元收购以色列人工智能公司Habana Labs,其以针对训练的Gaudi系列和针对推理的Goya系列而被行业所闻名。在被英特尔收购后,Habana成为了英特尔进军云端训练市场的利器。

同时,借以英特尔的影响力,Habana得以迅速成长。去年,Habana Gaudi系列产品成功进入到了AWS的服务器当中,当时这项合作为市场传递了这样一个信号——在训练端我们确实可以通过不同的架构对AI进行加速,并带来不一样的客户体验。

今年,Habana官方宣布其人工智能(AI)训练和推理加速器将为加州大学圣地亚哥分校圣地亚哥超级计算机中心(SDSC)的Voyager超级计算机提供高性能的AI计算能力。这项合作为Habana打开了在AI垂直业务的大门,再次印证了异构架构在未来市场中的可行性。

Gaudi为超算插上AI的翅膀


根据Habana的官方新闻稿中显示,Voyager超级计算机采用了Habana独特的互联技术,用336片Gaudi加速器有效地提升了AI训练能力,这种架构很好地扩展了大型超级计算机的训练应用。

据Habana Labs中国区总经理于明扬介绍,336片Gaudi被分成了48组,每个训练节点由8片Gaudi卡提供服务,每个训练节点之间还通过6个400G支持RoCE的以太网实现了整个集群的互联。

据了解,Gaudi是目前业界唯一内置集成10个支持RoCE v2(RDMA over Converged Ethernet)100G以太网端口的AI处理器,可以有效提升扩展的灵活性,避免扩展能力受于限吞吐量。此外,Voyager系统还采用了16片Habana Goya处理器用于AI推理模型。

于明扬表示:“通过这样的设计,用户可以在Gaudi上训练的模型简单快速部署到 Goya上,体验训练的结果并验证训练的结果。”


于明扬介绍,Voyager系统的本次升级是基于超微在Habana Gaudi系统开发的X12这一整套AI训练系统来进行改进和升级的。具体来看,本次的改进和升级主要包括:

  • 超微 X12 Gaudi AI训练系统(SYS-420GH-TNGR)内置8个Gaudi HL-205卡,搭配英特尔在本周推出的高性能双路第三代®至强®可扩展处理器

  • 超微SuperServer 4029GP-T内置8片用于AI推理的Habana Goya HL-100 PCIe 卡,搭配双路第二代英特尔®至强®可扩展处理器

据了解,Habana与Voyager合作的成品将于2021年秋季投入使用。Voyager开始投入运营的前三年是试验阶段,在此期间,SDSC将与天文学、气候科学、化学、粒子物理学和其它领域的一流研究团队合作,利用Voyager的独特特性获取更多AI领域的经验和见解。在整个测试阶段,SDSC将与AI研究计算团队分享经验,并共同撰写AI文档,作为第4、5年中扩大用户群的资源。

异构架构支撑起云端训练的未来


在Habana看来,与Voyager项目的合作可以证明Habana的产品是适合于超算对于人工智能业务方面的需求,Habana的产品的架构可以适用于未来超算的AI业务。

“对于很多的新产品来讲,科研领域的引入是对这个产品可以投入到商用场景中的早期证明”,于明扬表示:“与科研单位合作会为Habana带来更多典型的客户应用案例,同时可以在不同领域当中帮助Habana证明他产品架构是否适合这一类应用。这也就意味着Habana的产品不止只适用于传统云厂商的业务,而且还有可能拓展到其他垂直化应用当中。这对于未来Habana向其它垂直行业拓展起到了早期铺垫的意义。”

就目前基础研究发展的趋势来看,越来越多的超算都用到了AI技术。据于明扬介绍,此前超算很多业务都是利用第三方开发已有固定的模型,这些模型再结合上科研机构自己所获得的数据对结果进行研判。而未来通过人工智能技术的结合,这样的模型生成会变的越来越自动化,而模型生成的结果也越来越贴近于实际的场景。包括化学、粒子学等等这些领域当中,利用深度学习技术所建立的模型,能够提供更准确研究科研的结果。

在这种趋势之下,市场也对计算架构提出了新的挑战。

于明扬表示:“传统超算计算架构可能是适用于大规模数据变化的计算,但是在人工智能领域里除了数据并行化,同时还强调人工智能里面模型的并行化。所以为了提供更高效模型训练手段,传统的超算也在不断调整和改进它本身的计算结构。”

Voyager项目采用Habana的产品也是传统超算选择新计算架构的一种尝试。从技术角度来看,以Habana为代表的ASIC路线。ASIC在模型加速过程中可以实现很好的定制化加速;同时因为Habana对于计算架构有深入的理解,又最大限度地保持了灵活性。另外,在很多应用场景下更接近于GPU的使用习惯,但性能又要比GPU有很大的提升。

于明扬表示,传统科研和工程领域当中,大家通常都是在使用GPU来完成在云端的训练任务,而对于像其它的异构计算,虽然大家谈及很多异构是未来计算的趋势,但却缺少典型的落地应用。

与Voyager合作的超算项目可以说是异构架构在超算集群中落地的典型用例。于明扬表示:“通过本次合作第一次明确地证明了异构架构的确可以落户到很多非常典型的行业应用当中。其次,异构这种架构未来可能会在很多应用当中表现出它独有的优势。这是对于异构计算领域来说是一个非常好的证明,也是对于异构计算在未来很多行业当中未来能落地的一个很好的尝试。”

在云端训练部署异构架构的挑战


诚如上文所提到的,虽然业界看好异构计算在云端训练的未来,但实际情上没有多典型的应用来证明异构架构在云端训练的价值。

从目前市场情况来看,云端训练产品的大规模商用目前只有英伟达和Habana等少数厂家,其它厂家的产品多处在生态完善过程中。在这当中,一些品牌现在的产品只能用在特定的场景。其次,他们的应用需要与自身品牌的训练芯片相匹配才能发挥出更好的效果,而这就约束了这些品牌大规模的推广。因为这两方面的原因,一是技术方面的原因,二是产品原因,所以导致目前市场上只能看到英伟达和Habana的产品。

在于明扬看来,异构架构应用的挑战在于需要在不同架构上部署不同的业务,因为不同架构对于不同的应用可能表现出不同的性能,如何正确合理地把业务部署到不同的架构当中,对于未来超算管理者和设计者是一个比较大的挑战。提供融合管理平台,帮助用户自动地把他的需求部署到不同的架构当中,为用户提供一个快速和高效的体验是成功在云端训练上部署异构架构的关键。

在Habana看来,异构架构可以降低人工智能模型的大规模训练成本,可以为高增长的市场机遇中提供极富竞争力的替代选择。在这个过程中,Habana与英特尔产品的匹配将会为公司带来更大的发展机会。为此,英特尔和Habana将在产品的规范和定义上进行协同,并扩大到整个生态方面上的结合。他们希望能够通过异构架构在典型应用中的落地,驱动产业新一轮的智能创新。


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2651内容,欢迎关注。

推荐阅读


谁会成为中国的Skyworks?

国产半导体的2020,表现如何?

腾讯在研芯片曝光,定制芯片时代谁将获利?


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码 ,回复下方关键词,阅读更多

晶圆|集成电路|设备|封测 |射频|存储|美国|台积电

回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!

责任编辑:Sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论