近期,一段印度工厂的视频在网络上引发了广泛关注:工人们头戴装有摄像头的环形设备,坐在缝纫机前记录每一个缝制动作。这并非简单的生产监控,而是一场正在全球范围内悄然兴起的物理AI数据收集运动。
随着特斯拉、波士顿动力等科技巨头竞相开发人形机器人,AI的发展正从数字世界加速向物理世界迁移。大语言模型可以轻松抓取互联网上的海量文本,但机器人想要学会“拿、放、走、抓”等三维动作,必须依赖真实世界的交互数据。因此,人类工人的劳动过程,正成为AI训练数据的“收割”对象。
在印度,初创公司Egolab AI将工人佩戴摄像头收集到的视觉数据进行聚合与处理,打包成数据集出售给全球的AI公司;在美国,外卖平台DoorDash推出独立应用,允许零工从业者通过录制叠衣服、洗碗筷甚至日常对话来赚取报酬;还有公司向大众邮寄技能捕捉手套,专门收集做家务的运动数据。这些来自第一人称视角的视频和动作数据,被科技公司视为构建物理智能的基石。
然而,这场数据革命的背后,隐藏着巨大的技术鸿沟。与大语言模型处理的离散文本不同,具身智能需要的是连续的、多模态的交互者视角数据。仅仅依靠摄像头拍摄的二维视频是远远不够的,机器人还需要知道在抓取物体时用了多大的力矩、指尖触碰到了什么材质、机械臂的空间坐标如何变化。这就是为什么单纯的互联网视频无法直接喂给机器人,行业急需包含力反馈、触觉感知等精细标注的高质量数据。目前,全球高质量实操数据仅有数十万小时,距离训练出通用具身大模型所需的数千万小时量级,仍存在巨大的供给缺口。
为了填补这一数据荒漠,单纯依赖昂贵且低效的人力采集显然不可持续。当前,行业正在形成一种混合训练的破局策略。一方面,利用低成本的人类行为视频让机器人学习通用的物理常识;另一方面,大力发展高保真的仿真合成数据。通过在虚拟世界中构建数字孪生场景,批量生成各种极端或长尾场景下的训练数据,让机器人在虚拟世界里完成通识教育,再通过真机实训完成专业深造。这种虚实结合的方式,极大地降低了数据采集的成本并提升了泛化能力。
此外,数据的标准化与流通也是制约行业发展的关键瓶颈。由于不同品牌机器人的身高、自由度、传感器布局千差万别,为一种机器人采集的数据往往难以迁移到另一种机型上,导致行业内形成了严重的数据孤岛。建立统一的具身智能数据标准与接口协议,打通异构数据之间的壁垒,已成为全行业的迫切需求。同时,真正的智能进化依赖于数据闭环——即机器人在实际运行中遇到的每一次失败,都能被自动记录并上传云端,用于重新训练模型,最终通过OTA技术反哺给所有机器人。这种从被动采集到主动学习的转变,才是物理AI进化的终极形态。
当然,这种数据采集模式也引发了诸多争议与伦理担忧。在部分工厂中,工人是在未被明确征得同意的情况下被迫佩戴设备的。这不仅涉及隐私泄露的风险,更让工人们陷入了亲手训练AI取代自己的焦虑之中。他们的劳动成果成为了企业的核心资产,而他们自身却可能面临失业的风险。
文章来自:电子发烧友
![]()
