国产算力集群的突围之道:云端结合,构建生态

2024-07-12 08:54:01 来源: 互联网
大模型热潮进入2024年,如何搭建超大规模的算力集群,依然是人工智能大模型厂商关注的共同目标。
 
这边,Meta 首席执行官马克·扎克伯格在年初表示,公司正在建设大量的基础设施,以实现公司在大模型方面的目标。“我们将拥有约 35 万台 Nvidia H100,如果算上其他 GPU,则约有 60 万台 H100 等效计算能力。”马克·扎克伯格强调;另一边,Elon Musk也证实正在为其特斯拉汽车和xAI打造包含35万个GPU的超算。
 
除了上述厂商以外,包括微软、谷歌和AWS在内的云供应商也都纷纷加入了智算中心的竞争,以避免在人工智能时代被抛弃。来到国内,这股热潮也正在轰轰烈烈上演。
 
但国内的智算中心呈现出了不一样的局面。
 
国产算力集群,机遇和挑战
 
正如中国工程院院士清华大学教授郑纬民院士在日前在以“共迎智算新时代,共建智算新生态”为主题的2024世界人工智能大会分论坛的演讲中所说,大模型对算力产生爆发性需求,大概有四个过程:
 
首先是模型研发,研发的时候要写软件、调软件、优化软件,总需要机器;其次,大模型写完以后就开始做训练,训练的时候总是大力出奇迹,需要很大算力;再者,模型的微调,因为模型训练是通用大模型,有些垂直领域还不够水平。模型微调要做垂直领域的训练,这个也需要算力;最后,真正用的时候,用户请求要实时处理,也就是所谓的推理,推理也需要算力。
 
如上所述,郑纬民院士强调,整个过程对算力提出了很大的需求,甚至可以说得上是无止境的,算力的成本也很高。据介绍,在训练时候,成本的70%来自算力,人和数据分别则分别贡献了10%和20%的成本。来到推理阶段,算力贡献了95%的成本。
 
作为新质生产力的代表,算力是推动人工智能技术变革和产业发展的关键因素。燧原科技创始人、董事长、CEO赵立东先生在同期论坛致辞中强调:“国产算力迎来前所未有的新机遇,巨大市场需求与不断出台的各种利好政策加持的同时,市场供需也呈现了双向奔赴的趋势。”他进一步指出,国产算力随着性能和易用性的提升,正逐渐获得国内大模型和人工智能应用企业的青睐。
 
然而,随着机遇一起到来的还有挑战。
 
例如,要解决以自主国产的5-6万卡的算力规模就有很大的挑战性,当中的核心的挑战是需要一个以训练集群作为主要商业模式的探索过程,这首先必须要有万卡级的工程化、且可商用的算力集群作为基本盘。之后,再去有针对性地解决一些超大规模算力集群构建当中的工程化问题。
 
在这个基础上,还要解决跨集群之间的虚拟化问题,因为整个训练的过程当中也存在着潮汐现象,怎么更好的发挥算力资源的弹性使用效率。同时,必须要解决超大规模的算力部署,技术上还要突破跨数据中心训练的协同问题。
 
除了上述的训练面临的挑战外,对成本和延时更敏感的推理挑战也是不容忽视了:首先面临的是虚拟网络技术上的欠缺;其次,基于开源的框架,在性能、效率,国产兼容性上还有很大的挑战;此外,很多推理载体要承载大量的用户隐私,从这个角度讲,网络信息和数据安全也是很大的挑战。
 
当然,我们还需要关注如何能够真正地打造具有极致性价比的算力基础设施,这是今年要急需解决的问题。
 
云端结合,拓展合作伙伴朋友圈
 
燧原科技创始人兼COO张亚林先生指出,如何能够真真正正地推进国产超大规模算力集群,其实是要依赖于大量的工程实践和大模型的热启动。
 
“中国AI算力建设最大的问题在于如何能真正从商业的角度去考虑延时、吞吐、利用率、稳定性和可靠性,把它进行商业化。”张亚林说。他表示,一个模型的跑分和真正在商业模式上的落地应用是完全两回事。
 
有见及此,张亚林基于国内智算产业的现状建言道:“中国云端计算在当下全球形势下受到掣肘,我们必须得通过云边端协同进行补充。”如张亚林所说,中国垂直行业分工很细,不缺应用场景、大量的端侧和边侧设备,未来端侧和边侧设备也会具有很高算力,AIPC和AI phone也已经起来,接下来需要关注的就是如何做分布式推理。“如果端侧算力能够把简单任务做掉,把复杂任务推到云端,这样就可以节省不少成本。”张亚林说。
 
即使来到训练端,张亚林也认为我们可以利用云边端一体化训练做分布式的训练。具体而言就是调用更多的边侧和端侧设备训练,和云端形成很好的补充,这是中国大模型要解决的问题,也有很多人在尝试。
 
为此,针对人工智能大模型在日益增长的模型参数、海量的语料库以及广泛的场景需求对人工智能的算力基础设施提出的巨大挑战。燧原科技和清程极智近日还签署了战略合作协议,致力于共同打造超大规模智算集群的训练方案,针对大模型实际应用场景进行软硬协同的开发与优化。在满足基础大模型的预训练、行业大模型的微调和大模型推理部署等不同的应用场景和多元的算力需求,提供更高性能、更高效率、更高性价比的算力方案。
 
据介绍,基于燧原的新一代人工智能推理加速卡“燧原 S60”和清程极智的高性能推理框架“FastDecode”,共同研发了千亿参数规模大模型的高性能推理平台,该平台在不同场景下可实现 1 到 10 倍不等的吞吐量提升,实测的并发量是 vLLM 等开源框架的 4 倍,为进一步降低相关应用场景的算力使用成本提供了可规模落地的技术产品方案。
 
在燧原科技看来,在国产智算生态的搭建方面,要以全国算力一体化布局的智算中心算力网络为基础,拓展合作伙伴朋友圈,发展云服务、大模型、垂直模型(ISV)、AIDC集成部署运营运维等战略生态伙伴,解决谁来建、谁来运与谁来用的问题,才能将国产智算中心推上一个新台阶。
 
据介绍,在自主技术体系的基础上,燧原科技引入了各种类型的技术生态合作伙伴,联合打造符合行业主流的开源技术路线,以及与燧原软硬件工具体系进行深度结合的技术栈,从而持续提升开发工具的易用性、兼容性,更好满足外部客户的技术需求。与此同时,燧原科技还在培育技术生态合作伙伴,打造活跃的开发者生态。
 
“中国有最多的用户和最丰富的人工智能应用场景,可以通过快速的产品迭代驱动创新,通过与用户的密切合作打磨产品,通过与产业链上下游的伙伴构建开源开放的自主生态,推动人工智能产业的发展,赋能中国的数字经济。” 张亚林重申。
 
责任编辑:sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论