带摄像头上班的打工人，正在为物理AI训练取代自己的机器人

近期，一段印度工厂的视频在网络上引发了广泛关注：工人们头戴装有摄像头的环形设备，坐在缝纫机前记录每一个缝制动作。这并非简单的生产监控，而是一场正在全球范围内悄然兴起的物理AI数据收集运动。

随着特斯拉、波士顿动力等科技巨头竞相开发人形机器人，AI的发展正从数字世界加速向物理世界迁移。大语言模型可以轻松抓取互联网上的海量文本，但机器人想要学会“拿、放、走、抓”等三维动作，必须依赖真实世界的交互数据。因此，人类工人的劳动过程，正成为AI训练数据的“收割”对象。

在印度，初创公司Egolab AI将工人佩戴摄像头收集到的视觉数据进行聚合与处理，打包成数据集出售给全球的AI公司；在美国，外卖平台DoorDash推出独立应用，允许零工从业者通过录制叠衣服、洗碗筷甚至日常对话来赚取报酬；还有公司向大众邮寄技能捕捉手套，专门收集做家务的运动数据。这些来自第一人称视角的视频和动作数据，被科技公司视为构建物理智能的基石。

然而，这场数据革命的背后，隐藏着巨大的技术鸿沟。与大语言模型处理的离散文本不同，具身智能需要的是连续的、多模态的交互者视角数据。仅仅依靠摄像头拍摄的二维视频是远远不够的，机器人还需要知道在抓取物体时用了多大的力矩、指尖触碰到了什么材质、机械臂的空间坐标如何变化。这就是为什么单纯的互联网视频无法直接喂给机器人，行业急需包含力反馈、触觉感知等精细标注的高质量数据。目前，全球高质量实操数据仅有数十万小时，距离训练出通用具身大模型所需的数千万小时量级，仍存在巨大的供给缺口。

为了填补这一数据荒漠，单纯依赖昂贵且低效的人力采集显然不可持续。当前，行业正在形成一种混合训练的破局策略。一方面，利用低成本的人类行为视频让机器人学习通用的物理常识；另一方面，大力发展高保真的仿真合成数据。通过在虚拟世界中构建数字孪生场景，批量生成各种极端或长尾场景下的训练数据，让机器人在虚拟世界里完成通识教育，再通过真机实训完成专业深造。这种虚实结合的方式，极大地降低了数据采集的成本并提升了泛化能力。

此外，数据的标准化与流通也是制约行业发展的关键瓶颈。由于不同品牌机器人的身高、自由度、传感器布局千差万别，为一种机器人采集的数据往往难以迁移到另一种机型上，导致行业内形成了严重的数据孤岛。建立统一的具身智能数据标准与接口协议，打通异构数据之间的壁垒，已成为全行业的迫切需求。同时，真正的智能进化依赖于数据闭环——即机器人在实际运行中遇到的每一次失败，都能被自动记录并上传云端，用于重新训练模型，最终通过OTA技术反哺给所有机器人。这种从被动采集到主动学习的转变，才是物理AI进化的终极形态。

当然，这种数据采集模式也引发了诸多争议与伦理担忧。在部分工厂中，工人是在未被明确征得同意的情况下被迫佩戴设备的。这不仅涉及隐私泄露的风险，更让工人们陷入了亲手训练AI取代自己的焦虑之中。他们的劳动成果成为了企业的核心资产，而他们自身却可能面临失业的风险。

文章来自:电子发烧友

世界半导体论坛

带摄像头上班的打工人，正在为物理AI训练取代自己的机器人

作者yinhua

作者 yinhua

相关文章

美商务部长施压三星SK海力士扩大在美内存芯片生产缓解全球短缺

慕展观察｜从座舱互联到电池感知，ADI构筑软件定义汽车全栈技术底座

汽车芯片复用到人形机器人领域真的是最优解吗？

发表回复取消回复

You missed