在具身智能领域,人形机器人无疑是最值得期待的产品类别,有着更高的市场热度和更大的发展潜力。新战略人形机器人产业研究所的统计数据显示,截至 2025 年 4 月,全球人形机器人本体企业数量已超 300 家,中国企业数量占半壁江山。

随着全球范围内越来越多企业涌入人形机器人赛道,市场预期持续攀升。根据高工机器人产业研究所(GGII)近期发布的《2025 年人形机器人产业发展蓝皮书》,2025 年全球人形机器人市场销量有望达 1.24 万台,市场规模 63.39 亿元;2030 年销量将接近 34 万台,市场规模超 640 亿元;2035 年销量将突破 500 万台,市场规模超 4000 亿元。

fc4a3a10bca941b581afee9aaad70af9~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=20250515091043CC051EC06671BFDABAB5&x-expires=2147483647&x-signature=nOatFWnY5191OCKGw74hmwfZM8g%3D

数据来源:《2025 年人形机器人产业发展蓝皮书》,电子发烧友网制图

然而,要释放人形机器人的市场潜力,研发企业仍需攻克诸多挑战。尤其在数据与模型能力层面,人形机器人设计面临多维度技术瓶颈,既涉及底层感知决策的精度问题,也关乎复杂物理系统与智能算法的协同效率。对于通用人形机器人而言,更需基于有限数据构建接近甚至超越人类的通用模型,多任务耦合、物理约束与场景泛化等挑战尤为突出。

在应对上述挑战的探索中,NVIDIA 发布的开源人形机器人基础模型 Isaac GR00T N1 提供了高效解决方案。其在双系统架构、合成数据生成、仿真训练等方面的创新,大幅降低了通用人形机器人的开发门槛,标志着该领域进入全新发展阶段。

数据多样性与场景泛化的双重桎梏

人形机器人产业有一句被广泛认同的发展定律 ——“得数据者得天下”。这是因为人形机器人的智能化依赖 AI 大模型,而大模型的能力提升高度依赖数据规模与质量。从这个角度看,数据堪称人形机器人的 “灵魂”,但当前产业正面临数据匮乏的痛点。

首先,数据采集场景复杂。通用人形机器人需适应家庭、工业、户外等多元场景,不同场景的光照、地形、物体分布差异显著,采集全场景数据需耗费大量时间与资源。现阶段,多数机器人数据仅来源于实验室环境下的简单动作(如行走、抓取),缺乏工厂物料分拣、老人居家护理等复杂动态场景的实时交互数据。

其次,多模态数据采集门槛高。人形机器人需融合视觉、听觉、触觉等多模态数据感知环境,这要求多种传感器同步工作并保证时序一致性,技术难度极大。与整机构建不同,数据采集阶段需依赖多模态感知系统保障质量,医疗场景更需柔性传感器,进一步制约了数据池扩展。

第三,数据标注难度与工作量双高。标注人形机器人数据需掌握运动学、动力学及场景专业知识(如标注行走姿态需关节角度、运动轨迹等知识),标注人员需经专业培训。此外,数据量庞大且关联复杂,需标注动作、姿态及环境交互信息,导致标注工作量呈指数级增长。

最后,数据孤岛与标准缺失问题突出。企业将数据视为核心竞争力,担心共享导致技术泄露,形成 “数据孤岛”;同时,不同机构的数据采集设备、方法与格式缺乏统一标准,即便倡导开源,数据融合仍困难重重。

数据匮乏直接制约 AI 大模型性能提升。如上所述,通用人形机器人需覆盖家庭、办公、户外等复杂场景,小规模数据难以捕捉场景多样性,导致模型无法学习足够模式,在新场景中表现欠佳。为保证安全性,开发人员不得不为机器人添加大量物理约束,将规范嵌入控制系统,但这反而限制了场景泛化能力。

比数据缺乏更严峻的是数据质量问题:错误标注、缺失值或偏差会使模型学习错误模式,导致机器人决策失误。例如,在养老护理场景里,训练物体识别时,错误标注可能导致机器人拿错药物,引发严重后果。

为破解数据困局,机器人行业尝试引入动作捕捉技术 —— 通过高精度传感器采集人类关节轨迹、肌肉发力模式,将人类动作转化为机器人控制指令。这一技术试图打通人类运动经验与机器人控制的壁垒,但仍存在局限:高精度动捕系统需在特定场地部署大量设备,成本高昂;视觉动捕易受光照与遮挡干扰,惯性动作捕捉可能受电磁干扰漂移;若 AI 模型基础能力不足,示教动作可能引入误差,限制复杂环境应用。

GR00T N1为人形机器人带来通用技能和推理

GTC 2025期间,NVIDIA 推出一系列全新技术,助力人形机器人开发,其中包括全球首个开源且完全可定制的基础模型 NVIDIA Isaac GR00T N1。NVIDIA 创始人兼 CEO 黄仁勋表示,“借助 NVIDIA Isaac GR00T N1 以及新的数据生成和机器人学习框架,全球机器人开发者将开启 AI 时代的全新篇章。”

GR00T N1是NVIDIA Isaac GR00T平台推出的首个用于通用人形机器人推理和技能的可完全定制模型,其拥有两大突出的优势:GR00T N1基于庞大的人形数据集训练而来,且创新性地采用了双系统架构,可帮助解决当前通用人形机器人开发遇到的挑战,保证了通用人形机器人性能的“基本盘”。

GR00T N1的训练数据既包含了真实获取的数据,也有使用 NVIDIA Isaac GR00T Blueprint 组件生成的合成数据,以及互联网级视频数据。其中,用于合成运动生成的 NVIDIA Isaac GR00T Blueprint 是基于 NVIDIA Omniverse 和 NVIDIA Cosmos 构建的参考工作流,它可以从少量的人类演示中创建大量的合成运动轨迹,用于机器人操作。列一组简单的数据对比,GR00T Blueprint能够在11 小时内生成 780,000 个合成轨迹,相当于 6,500 小时或连续九个月的人类演示数据。同时,GR00T Blueprint生成的数据还能够和真实世界数据结合,进一步提升了数据的质量和规模。

c1d2e9ba45c843e4ac0731643bf60773~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=20250515091043CC051EC06671BFDABAB5&x-expires=2147483647&x-signature=ZP%2BW4D1SfVaMQktqRqmarIgAEDg%3D

GR00T Blueprint工作流,图源:NVIDIA

如此吸引人的训练数据集该如何获取呢?NVIDIA也回应了人形机器人开发人员关切的问题。GTC 2025上,该公司发布了大型开源数据集,助力构建下一代物理 AI。初始数据集包含15 TB 数据,有超过 320,000 条机器人训练轨迹,以及包含 SimReady 资源集合在内的高达 1,000 个通用场景描述(OpenUSD)资源,开发人员可通过 Hugging Face 平台下载。从数据规模来看,已发布的 GR00T N1 数据集是更大的开源物理 AI 数据集的一部分。事实上,这些高质量数据不仅可用于预训练,也可用于后训练,以对AI模型进行调优。

发展至今,GR00T N1背后的数据集和数据合成方法已经不只是一个解决方案,而是一种适用于自主机器人或自动驾驶的数据生态。一方面,人形机器人公司、自动驾驶方案商和领先的科研机构在积极使用这些数据;另一方面这些机构和单位也在基于此构建新的数据和方法论。比如,智元机器人利用 GR00T-Teleop 打造了更加高效易用的仿真遥操作方法,GR00T-Teleop 是NVIDIA Project GR00T 的核心模块之一,支持基于 Apple Vision Pro 的远程操作。因此,用户可以通过佩戴 VR 设备,利用手柄实时控制 Isaac Sim 中智元 AgiBot G1 机器人的手臂、腰部和底盘运动,然后再借助GR00T-Mimic,实现少量示教到海量数据的泛化,实现数据采集规模的指数级上升。这一方法,以及与之类似的方法实际上也解决了我们上述提到的动作捕捉技术的痛点和难点,以少量的人类示范就可以构建大量人形机器人动作的“金标准”。

b39b251d8ccc499fbd716ce359b13ee7~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=20250515091043CC051EC06671BFDABAB5&x-expires=2147483647&x-signature=YH%2FCLxo7OTc1MNu0bUA5%2FBCIBu8%3D

Genie Sim 基于 GR00T-Teleop 的仿真远程操作架构,图源:NVIDIA

除了庞大的数据支撑,GR00T N1模型还采用了双系统架构,以提供类似人类大脑的认知模式。如下图所示,系统 2是一个视觉-语言模型,基于 NVIDIA-Eagle 和 SmolLM-1.7B,是一个方法论思考系统,通过视觉和语言指令解释环境,使机器人能够对其环境和指令进行推理,并规划正确的行动;系统1是扩散 Transformer,这个动作模型生成连续动作以控制机器人的运动,将系统 2 制定的动作计划转化为精确、连续的机器人运动,如在仓库场景中,系统1能规划自主导航路径并完成多步骤货物分拣。

f84e6055cc8444688b4bb0918f4c68c3~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=20250515091043CC051EC06671BFDABAB5&x-expires=2147483647&x-signature=n6righ2BSe9%2BVO0MuDYPIDr4jRQ%3D

GR00T N1模型的双系统架构,图源:NVIDIA

因此,GR00T N1模型能够让通用人形机器人开发人员从一开始就不必受到数据规模和场景泛化的牵绊,它可以轻松适应和应对各种通用任务,比如单手或双手抓取、移动物体,或者是将物品从一只手臂转移到另一只手臂,当然它也能够胜任需要较长背景和常规技能组合的多步骤任务,比较典型的场景是物料的搬运和检查。

针对特定场景,开发人员还可以使用真实数据或合成数据对GR00T N1模型进行后训练,进一步提升人形机器人的场景适应性;针对复杂任务,开发人员也可以通过开源物理引擎 Newton提升人形机器人精度以处理复杂任务。该引擎基于 NVIDIA Warp 框架构建,针对机器人学习进行优化,并与 Google DeepMind MuJoCo 和 NVIDIA Isaac Lab 等仿真框架兼容。

正如1X Technologies 首席执行官 Bernt Børnich 所言,“人形机器人的未来开发重点在于适应能力和学习能力。”GR00T N1模型的出现精准契合行业发展的大趋势,通过高效、高质量的数据集、预训练、后训练和推理,GR00T N1模型让人形机器人研发全面换挡提速。当前,优先使用 GR00T N1 的领先机器人公司包括1X Technologies、Agility Robotics、波士顿动力、Mentee Robotics 和 NEURA Robotics等。

Blackwell 架构为智能体提供强劲动能

如上所述,GR00T N1是NVIDIA 一系列可完全定制模型中的首个模型,也是GR00T平台更新的重要成果。除了基础模型和数据流水线,NVIDIA Jetson为人形机器人模型部署提供可扩展且性能强大的计算平台。

c5a19b0acaaf4b2da300c7f1808a0e66~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=20250515091043CC051EC06671BFDABAB5&x-expires=2147483647&x-signature=PAbnow2v4Y4zGQPVLb%2F0P9lxxsk%3D

GR00T工作流程图,图源:NVIDIA

NVIDIA Jetson平台已有多款针对机器人部署的芯片方案。例如,Jetson Orin系列为不同规格的人形机器人模型提供 7 个具有相同架构的模组,包括Jetson AGX Orin、Jetson Orin NX和Jetson Orin Nano等,最高可提供每秒高达 275 万亿次运算 (TOPS) 的算力,性能是上一代多模态 AI 推理的 8 倍,可支持训练好的人形机器人模型进行快速推理。

更让人形机器人开发者兴奋的是最新的Jetson Thor系列,其是NVIDIA专为人形机器人设计的计算平台。Jetson Thor集成高性能CPU、高算力内核、功能安全模块和100 GB以太网带宽,使人形机器人能够运行复杂的多模态 AI 模型,高效处理实时的多模态传感器数据并支持复杂处理任务,是下一代通用人形机器人部署的理想平台。此前,NVIDIA 机器人与边缘计算副总裁Deepu Talla透露,Jetson Thor平台计算性能可达到1050 TOPS。

Jetson Thor计算平台的出色性能源于背后的NVIDIA Blackwell 架构的强大支持,该架构为生成式 AI 和加速计算带来突破性进步。基于Blackwell 架构的GPU具有 2080 亿个晶体管,采用专门定制的台积电 4NP 工艺制造。所有 NVIDIA Blackwell 产品均采用双倍光刻极限尺寸的裸片,通过 10 TB/s 的片间互联技术连接成一块统一的 GPU。

除了计算性能的提升,Blackwell 架构还有非常多的优化,能够提升基于该架构的计算芯片在人形机器人市场的表现。比如,Blackwell 架构搭载第二代 Transformer 引擎,该引擎将定制的 NVIDIA Blackwell Tensor Core 技术与 NVIDIA TensorRT-LLM 和 NeMo 框架的创新进行结合,加速大语言模型 (LLM) 和多专家模型 (MoE) 的推理和训练。GR00T N1数据集和模型等一系列新的方案发布之后,全球通用人形机器人在预训练、后训练和部署推理方面的芯片需求将显著提升,而这些任务对算力芯片的算力精度和算力规模有着不一样的要求,Blackwell Tensor Core 新增了由社区定义的新型微缩放格式作为新的精度选项,这一改进不仅提升了计算的准确性,还可在必要时轻松切换至更高的精度级别,这种能力保障了人形机器人的训练和推理。

对于第二代 Transformer 引擎,还有一点对于人形机器人是非常重要的,那就是微张量缩放的细粒度缩放技术。这项技术可以优化性能和准确性,从而实现 4 位浮点 (FP4) AI。这一技术在保持高精度不变的同时,将内存能够支持的下一代模型的性能和规模均提升了 1 倍。这使得人形机器人能够实时处理视觉识别、自然语言交互、力控反馈等多维度数据,决策能力显著提升。同时,通过 FP4 精度和硬件级解压缩引擎,Blackwell架构可以降低人形机器人推理的功耗。通用人形机器人主要依赖电池供电,有限的身体空间导致电池容量无法像汽车一样扩大,因此能效是非常重要的指标。

此外,Blackwell 内置 NVIDIA 机密计算技术,可通过基于硬件的强大安全性保护敏感数据和 AI 模型,使其免遭未经授权的访问,能够增强人形机器人等AI智能体的数据安全特性。因此,Blackwell 架构不仅是算力的升级,而是带来了算力、效能、安全性等方面的全面提升,推动人形机器人从实验室走向工业、服务、特种作业等场景。

结语

从数据孤岛到生态协同,从场景局限到通用泛化,NVIDIA Isaac GR00T N1数据集和模型的出现,使得研发通用人形机器人不再受困于数据缺失,并带来了“数据合成 + 智能推理”的高效范式,仅需要少量的示范数据就能模拟人类大脑的决策逻辑,让通用人形机器人在家庭服务、工业分拣、医疗护理等复杂场景中更快落地。在此过程中,Jetson AGX Thor 计算平台与 Blackwell 架构的创新赋能价值凸显,为人形机器人装上了高性能的“智能引擎”。

未来,随着物理 AI 与生成式 AI 的深度耦合,人形机器人将从 “定制化工具” 迈向 “通用化智能体”,真正融入人类生活的每个角落,开启人机协作的全新时代。

文章来自:电子发烧友

Loading

作者 yinhua

发表回复