国产算力芯片,如何为AI大模型赋能?

2023-07-20 16:52:25 来源: 李晨光
2022 年 11 月,随着ChatGPT的问世,成功掀起了一场AI技术革命及其商业应用浪潮。
 
浪潮之下,AIGC成为业内最瞩目的赛道之一,科技巨头相继展开AI竞赛,AI大模型犹如雨后春笋般快速出现。
 
在以OpenAI的GPT、Dall-E为代表的LLM出尽风头后,国内市场也迎来了“百模大战”时代。AIGC高地的争夺日趋白热化。
 
而随着大模型的快速崛起及广泛应用,点燃了如今市场对算力的需求。AI领域的“军备竞赛”正从过去算法和数据层面的竞争,转变为底层算力的竞争。
 
英伟达成为了这波AI浪潮红利下的最大受益者,正如黄仁勋此前所言“我们正处于AI的iPhone时刻”,大模型的火热应用直接将英伟达带入万亿美元市值俱乐部。
 
此外,生成式AI应用的爆发和大模型的争相发布,对于算力芯片厂商来讲,或将都迎来一个全新的蓝海市场。
 
在此趋势下,无数老将新兵,正蜂拥进入算力芯片的竞赛之中。 对国内算力芯片厂商而言,也正在迎来新的发展契机。
 
近日,以“智联世界 生成未来”为主题的2023世界人工智能大会(WAIC)上,上海天数智芯半导体有限公司(以下简称“天数智芯”)携一众亮点产品和技术方案亮相,展示了在大模型训练、推理所取得的显著进展,以及图片识别、3D建模、智慧零售、智算中心、目标检测等多种应用案例,全面呈现出国产通用GPU的“芯”实力。
 

 
天数智芯如何把握AI大模型新风口

据介绍,天数智芯在过去几年先后发布了通用GPU训练产品“天垓100”和推理产品“智铠100”,并经过多家合作伙伴的适配验证,在应用落地层面已有显著成效。尤其是在当前火热的大模型领域,天数智芯在上半年搭建了40P算力100加速卡算力集群,完成智源研究院70亿参数大模型训练,是目前唯一能支持大模型完整训练的国产通用GPU产品。
 
天数智芯董事长兼CEO盖鲁江在接受半导体行业观察等媒体采访时表示:“目前天垓100这款产品已经成功跑通了清华智谱AI大模型ChatGLM,Meta研发的LLaMA模型。此外,天数智芯正在搭建200P算力自主算力集群,支持650亿参数的大模型训练,预计10月份可以跑完。”
 

天数智芯董事长兼CEO盖鲁江接受媒体采访
 
除了训练之外,在垂直领域的推理级应用,天数智芯的“智铠100”实测性能也非常好,能对标国际主流公司的性能。盖鲁江表示,后续的产品在持续演进过程中,并针对性地对一些大模型算法进行硬件级优化,大幅提升算力通用性以及性能,以满足国内大模型发展的算力需求。“如果有客户从国外的云平台迁回来,急需算力,我们也可以联合合作伙伴为其搭建算力平台,来支持他们的开发。”
 
可见,在GPU产品市场化方面,天数智芯走在了国内厂商的前列。之所以能够取得如此快速的商业化进展,盖鲁江认为,一方面取决于产品的硬件能力,另一方面取决于软件生态。
 
天垓100并没有选择国内其他GPU厂商惯常选择的专用GPU发展路径,而是选择做一款通用GPU。所谓通用架构芯片,就是能够提供一个通用的算力,以及能够给各行业的广泛用户提供算力支持。
 
“如果不采用通用架构,客户进行平台切换门槛比较高。”盖鲁江表示,天数智芯在第一阶段就走了一条兼容国际主流生态的路线。因为天数采用的通用架构,可以方便客户在API接口层面兼容国际主流终端,并降低迁移成本。“在500多人的研究团队中,软件团队的数量是硬件的2倍。”盖鲁江称,唯有做好软件优化,硬件性能才有可能呈几何倍数的提升。
 
大模型时代,除要求通用GPU具备高算力、支持各种数据精度以及高带宽的互联能力之外,软件生态同样至关重要。
 
从当前进展来看,尽管国内算力芯片厂商集体走出了“加速度”,但国内大算力芯片的产品竞争力特别是软件生态方面,与国际先进水平存在一定的差距。例如,英伟达的核心优势并不仅仅在硬件性能优越上,还有完善的CUDA软件生态,而这也正是国内算力厂商的短板所在。
 
在软件层面,盖鲁江强调,天数智芯将采取开放的态度,与大模型产业生态的合作伙伴和客户保持密切合作,形成“应用-优化-反馈-迭代”的正循环,加速软件生态的更新和提升。
 
对此,为了帮助用户更好地评估和使用通用算力,让更多终端产业受惠于通用算力,天数智芯在去年还发布了百大应用开放平台DeepSpark,该平台基于天数智芯丰富的应用落地经验,从速度、功耗、准确度、线性度、显存占用、稳定度等6大维度构建系统性测评体系,可以帮助用户在自己的业务中,快速、高效地识别出更有效的算力,提升用户的算法开发效率,缩短应用落地的周期。
 
能够看到,在商业化这条路上,天数智芯已经率先迈出了一步。
 
未来,盖鲁江表示,一方面还是要继续提升自身能力,持续进行下一代产品的迭代升级,提升芯片性能和算力;另一方面,积极建设生态体系,不断地完善软件栈,旨在为客户降本增效,提升性价比。
 
在这个过程中,随着大模型参数量级的不断增长,致使算力需求也呈现量级增长,算力集群正变得愈发庞大。盖鲁江进一步指出,为支持更大的参数规模,在单卡训练算力不足情况下,堆量是一个方法,即通过集群的方式堆叠算力,增加计算能力,再通过软件能力对算力统一调度。
 
需要注意的是,训练的集群需要成千上万张卡同时运行,要保证在训练过程中能连续工作且不出故障,对产品稳定性和可靠性产生极严格的要求。同时,还要支持可扩展的弹性能力,实现算力弹性可扩容。此外,还要提供坚实的保障,在故障出现时能迅速定位并快速恢复。
 
对此,天数智芯自主研发了IXCCL分布式通信技术,显著提升多机多卡高速互联性能,打造基于自主通用GPU的算力集群方案,持续优化自动混精训练、流水线并行、张量并行、数据并行以及模型并行等并行加速策略,让大模型训练、推理变得更加高效。
 
综合来看,天垓100率先完成百亿级参数大模型训练,迈出了自主通用GPU大模型应用的重要一步。这一成果充分证明了天垓产品可以支持大模型训练,打通了国内大模型创新发展的关键“堵点”,对于我国大模型自主生态建设、产业链安全保障具有十分重大的意义。同时,与”智铠100”一起勾画出天数智芯“训练+推理”的产品布局雏形。
 
通过与盖鲁江的交流能够发现,作为通用GPU厂商,顺应大模型的发展潮流,天数智芯依托通用GPU架构,从训练和推理两个角度为客户提供支撑,全力打造高性价比、通用性的全栈式集群解决方案,为大模型时代提供强大算力底座。
 
接下来,天数智芯将与合作伙伴们继续深入合作,建设更大规模的天垓100算力集群,完成更大参数规模的大模型训练,以自主通用GPU产品更好支持国内大模型创新应用,进一步夯实我国算力基础,助力人工智能产业自主生态建设。
 
写在最后

全新的AI时代正呼啸而来,海量数据洪流和大模型应用需求爆发将继续拉动算力规模成倍增长。
 
尽管目前主流的算力方案仍是英伟达一骑绝尘,但从长远计,我国通用GPU企业大有可为。对算力需求的激增提供了一个巨大市场,此时国外计算芯片供应紧张和出口限制,又将为国内芯片公司提供更多的机会。
 
这对于国产芯努力构建自主创新架构、满足市场对性价比和能效比的多元需求,无疑是一个极佳的时间窗口。谁能率先拿出完善的国产化替代方案,谁便能从庞大的AI算力市场分一杯羹。
 
在此契机下,天数智芯作为国内通用GPU算力芯片的代表企业,正在坚持开发自主可控、国际领先的高性能通用GPU产品,不断升级算力解决方案,适配支持更多参数量、更大数据集、更复杂算法的大模型,为我国大模型创新发展、应用落地提供更加坚实的算力支撑。
 
在大模型引发了全球人工智能新一轮创新浪潮之际,天数智芯在实现我国通用GPU从0到1的重大突破之后,进一步加速本土GPU产业生态从1到100的新突破。
责任编辑:sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论