NVIDIA重磅出击:三台计算机助力人形机器人飞跃

2025-01-21 22:19:03 来源: 杜芹
机器人这一概念并不新鲜,但近年来它无疑进入了一个新的发展阶段。尤其是“具身智能”和“通用机器人”等关键词,已经成为近两年机器人领域的热议话题。全球范围内,越来越多的企业和机构投入到人形机器人开发的竞赛中。随着危险工作的增加、劳动力短缺问题的加剧以及人口老龄化的压力,机器人需求日益增长。而人形机器人的广泛关注与热潮,背后离不开技术基础的迅猛发展。
 
那么,制造一台机器人需要完成哪些工作?其中又存在哪些技术难题?作为这一领域的技术领航者,NVIDIA机器人与边缘计算副总裁Deepu Talla近日在北京办公室对这些问题进行了深入的讨论,分享了机器人技术背后的关键要素。


           NVIDIA机器人与边缘计算副总裁Deepu Talla

机器人快速增长的背后原因
 
NVIDIA 机器人与边缘计算副总裁 Deepu Talla表示,主要有两大原因:
 
首先是技术进步,尤其是在生成式AI(GenAI)领域的突破。过去两年,大型语言模型(LLMs)在数字应用领域的广泛应用为机器人技术提供了新的可能。今天,我们看到这些技术开始从虚拟世界向物理世界扩展,这意味着机器人技术不再局限于简单的数字应用,它们开始具备更高的智能,能够理解并处理复杂的物理任务。
 
在机器人的发展演变过程中,仿真无疑起到了巨大的作用。仿真并不是一个新概念。例如,在芯片设计领域,100%的芯片在制造之前都需要进行仿真,以确保其功能完美无缺,因为芯片设计中的错误可能导致数月的延误,并耗费数百万甚至数十亿美元。
 
传统上,机器人开发和测试依赖于物理环境,导致进展速度缓慢。每一个机器人模型的制造都是昂贵且时间消耗巨大的,这限制了创新的步伐。在机器人领域,主要的挑战在于“仿真与现实的差距”(sim-to-real gap)——也就是仿真结果与实际表现之间的差异。直到最近,仿真技术的精度还不足,因此未被广泛采用。
 
而就在过去一年中,NVIDIA开发了一项名为Omniverse的技术。Omniverse 作为一个数字化的仿真环境,为机器人技术的开发提供了一个全新的思路。通过这个平台,开发人员能够在虚拟环境中进行机器人测试和训练,大大缩短了开发周期,降低了成本。Deepu指出,这项技术已经取得了显著成熟——尽管还未完全解决所有问题,但其发展水平已相当于生成式AI在仿真领域的应用水平。
 
仿真技术的这一变革是机器人技术发展的一个重要转折点,它打破了传统开发模式的局限性,为机器人技术的快速创新提供了肥沃的土壤。在接下来的5到10年内,仿真环境的进一步成熟将继续推动机器人技术的广泛应用,推动智能机器人从实验室走向现实世界。
 
制造一个机器人,需要三台计算机
 
现在,当人们谈论机器人时,大多数人会想到物理机器人——那些像人或工业工具的具体机器。这种物理形态是目标,最终的成果是人形机器人。但通向这个目标的道路非常复杂。为了真正解决机器人领域的挑战,Deepu表示,我们需要三台计算机:
 
  • 第一台计算机用于训练:这是用于训练AI模型的系统。训练通常在云端、数据中心或像NVIDIA DGX这样的强大系统上进行。这是构建机器人“大脑”的关键步骤。
 
  • 第二台计算机用于仿真:一旦训练完成,就需要进行测试。以往的标准是物理测试,但这种方式既慢又昂贵,还存在风险。更好的解决方案是引入一个“仿真层”,即“数字孪生”,在虚拟环境中完成测试。仿真允许在大规模、快速且安全的条件下运行数千种场景测试,无需受到真实世界时间或成本的限制。
 
  • 第三台计算机用于部署:第三种系统安装在机器人内部,它就是操作物理机器人的“大脑”。对NVIDIA来说,这可以通过像Jetson或AGX这样的系统来实现。
 
通过整合这三种系统,我们可以显著缩短开发时间。在现实世界部署之前,通过仿真进行成千上万次测试,加速整个流程。如果某个设计在现实中表现不佳,可以回到仿真环境中优化模型并再次测试。这个循环过程(训练、仿真、测试)使得机器人技术的进步能够在5年内完成,而不是50年。
 
这种方法也解释了为什么机器人技术比自动驾驶更难。对于自动驾驶来说,主要是避免障碍并确保安全,而无需与物理物体交互。而在机器人领域,涉及到的是与物体的接触、碰撞和复杂的物理交互,这些都更难测试和优化。
 
问题来了,数据如何获得?
 
数据是当今时代重要的财富,以AI模型训练为例,像ChatGPT这样的流行模型是在大型GPU和来自互联网的海量文本数据上训练出来的。目前,大模型的数据大部分来自于互联网,特别是人类自发上传的内容。
 
而在当前的主流数据采集方法中,人工采集仍然占据重要地位。例如,特斯拉的数据采集工厂就是一个典型的案例。在其工厂中,每台特斯拉人形机器人旁边都站着一个穿着特殊服装的操作员。操作员通过抬手或其他动作,信号便会传递给机器人,指示它模仿该动作并完成任务。
 
尽管这些方法在自动驾驶领域取得了一定的成效,但对于人形机器人而言,数据采集的复杂度大大增加。相比自动驾驶,开车是一项刚需,用户购买车辆后愿意自发提供数据,这使得自动驾驶的数据采集成本变得较低。然而,在人形机器人领域,情况则完全不同。由于人形机器人尚未具备完全功能,消费者难以购买和使用这类机器人,也没有动力主动为数据采集提供支持。因此,人形机器人的数据采集面临巨大的挑战,无法像自动驾驶数据采集那样轻松实现。可以说,人形机器人的数据采集依赖于“冷启动”模式,这是全球人形机器人公司面临的共同瓶颈。
 
从谷歌和特斯拉的数据显示,数据采集的成本非常高。仅以特斯拉为例,采集13万条数据竟花费了17个月、16名工程师以及13台机器人,成本极其高昂。这一过程包括设备的使用和整个数据采集系统的搭建,所需的费用高达百万级别。因此,短期内通过真实世界数据来推动人形机器人的智能突破仍然面临重重挑战,尤其是具身智能领域的突破难度更大。
 
为了解决这一问题,合成数据生成变得至关重要。通过合成数据,我们可以生成特定动作(例如抓取物体)的无数种变化,或者构建完整的虚拟环境。在这方面,NVIDIA Cosmos是一个“世界基础模型”,可以生成高度逼真、类似视频游戏的环境,用于机器人训练。在这里,“世界”指的并不是地球,而是机器人交互的环境,例如机器人操作的房间内可见区域。
 
Deepu指出,通过将少量的现实世界数据与使用像NVIDIA Cosmos这样的工具生成的大规模合成数据相结合,我们可以克服机器人技术中数据稀缺的问题。这种新工作流已经宣布并部分上线,我们正在与全球合作伙伴共同实施这一解决方案,以解决机器人领域的基础数据挑战。
 
银河通用开发出基于10亿级别合成数据的具身大模型
 
在行业的应用方面,银河通用是一个成功的早期探索者。基于NVIDIA Isaac系列以及Omniverse等,银河通用完全基于自研的10亿级别的合成大数据,训练出了全球最大机器人基础模型。据银河通用创始人、CTO王鹤的介绍,该基础大模型具备七大泛化“金标准”:光照泛化、背景泛化、平面位置泛化、空间高度泛化、动作策略泛化、动态干扰泛化、物体类别泛化。这使得它能够根据输入的语言指令,直接执行特定任务,如抓取指定物品。


 
一个重要特点是,这款模型在面对特定任务时,能够通过极少的数据学习并快速适应。例如,当我们要求模型抓取一个水瓶时,即使该物体从未出现在合成数据中,模型也能准确执行。通过基于大数据的训练,银河通用实现了在灵巧抓取方面取得了显著突破。特别是针对10亿级别的零售数据,模型的精准抓取能力已经达到90%以上,能够适应各种形状和大小的物体。
 
在 NVIDIA CES 2025 发布会上,银河通用机器人托举起了 NVIDIA 新一代显卡产品 RTX5090 引发关注。
 
银河通用的具身大模型,已经成功涉足众多行业,涵盖零售、酒店、接待、养老以及工业制造等领域。在北京奔驰的工厂里,银河通用的人形机器人在人工装载天窗玻璃及转运过程中发挥着重要作用。在这个过程中,天窗玻璃在吸起和放下时容易出现错误摆放,一旦出现这种情况,以往需要人工终止转运并进行修正。而现在,人形机器人基于视觉闭环和从仿真中学到的操作技能,经过良好训练后,能够快速发现错误并进行有目的的纠正。
 
与现有的大模型相比,这种合成数据训练的基础大模型展现出一个显著优势:对数据的需求极为低廉。现有的大模型在应用时,通常需要成千上万的数据来理解和适应用户的需求,而我们基于10亿规模的合成大数据训练的模型,仅需100条数据就能实现快速的适配和执行。这样不仅节省了大量数据采集的时间和成本,也使得机器人可以更快速地理解并满足客户需求。
 
总结
 
NVIDIA在机器人领域的技术突破不仅为行业带来了前所未有的发展机遇,同时也解决了机器人技术的许多瓶颈问题。通过仿真平台、合成数据和强大的计算能力,NVIDIA正在帮助机器人技术加速发展,并使其迅速走向更多行业。未来,随着这些技术的成熟,机器人将逐渐走进更多家庭和行业,推动智能化、自动化的普及。
责任编辑:sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论