Skip to content
AI-Daily-Builder

2026-06-08

人形机器人背后的瓶颈不是硬件——而是数据,而中国正用付费人类视频硬解这个问题

次浏览

6 月 3 日一篇报道详述京东等公司如何以每小时 3 美元雇用普通人拍摄家务,好让人形机器人学习。真正的实体 AI 竞赛是在抢训练数据,而其供应链正被工业化。

发生了什么

今年春天那些抢眼的实体 AI 头条都围绕在硬件与资金——工厂产线、部署计划、数十亿美元的融资。更重要的故事其实更安静,它出现在 Rest of World 6 月 3 日的一篇报道中:人形机器人的数据供应链正被工业化,而此刻中国正以无人能及的规模在推进这件事。

最清楚的例子是京东(JD.com)。该公司与宿迁当地政府合作,目标是在两年内取得 1,000 万小时的机器人训练数据——而其细项分配很重要。根据 Gasgoo 的报道,这项计划在第一年前置投入500 万小时的真实世界人类情境视频,第二年突破 1,000 万小时,并在此之上额外加入约100 万小时的机器人本体数据。为了收集这些数据,京东表示将动员横跨物流、制造、医疗、家庭服务与城市运营的100 多种场景超过 10 万名内部员工以及多达 50 万名外部工作者

收集的方法才是开发者该好好思考的部分。这不是实验室里昂贵的远程操作(teleoperation)装备,而是戴着头戴式摄影机的普通人。Rest of World 描述了一位在家工作者每天拍摄家务六小时、每小时 20 元人民币(约 3 美元),以及一位屋主付了 149 元人民币(约 22 美元)进行为时三小时的上门收集,过程中一台来自深圳的 X Square Robot 机器人练习折叠几件衣物并摆放鞋子。广东的工厂工人则戴着头戴式摄影机加上腕部传感器,以捕捉产线上的手部动作。

为何闸门是数据,而非硬件

这件事唯有放在具身 AI(embodied AI)那种根本性的不对称底下才说得通。正如 MIT Technology Review 早在 2024 年所描述的,机器人所需的数据「比用来训练 GPT 这类最先进 AI 模型的数据难取得得多——后者大多是从网络上抓取的文字、图片与视频。」语言模型吃的是开放网络。一套机器人策略需要同步的摄影机画面、关节角度、夹爪力道与任务情境——全都得在真正的物理交互过程中录制。这种数据根本不存在于互联网规模,而且「真实世界数据相对稀缺,往往需要多得多的时间、心力与昂贵设备来收集。」

白话说:你无法靠抓取网络数据一路走到一套通用型操作策略。必须有人在装设仪器的情况下,亲身把这些任务做上数百万次。谁能用最便宜、最广泛的方式把这条管线建起来,谁就能得到更好的模型。

这也重新框定了近期的硬件里程碑。一座每小时量产人形机器人的工厂很惊人,但一台没有多样、任务专属数据的机器人不过是昂贵的人偶。部署与数据收割其实是同一个项目:每一位装设仪器的工作者、每一台在训练场上的机器人,都是一个数据生成节点。

产出量的计算

中国的做法本质上是把劳动力大规模转换成示范数据。People’s Daily(4 月 28 日)报道,在石景山训练中心——一处超过 10,000 平方米的场地——100 台人形机器人于 2025 年 10 月开始训练,每台机器人每天约产生四小时的训练数据。以两分钟的采样间隔计算,运营方表示 100 台机器人每天可完成至少 12,000 项数据收集任务,内容包括折衣服、分拣包裹、扫描条码与开锁等家务。

把它们叠在一起,两种收集模式看起来是这样:

来源操作者速率/规模成本信号
家庭视频(第一人称)居民,头戴式摄影机每人每天约 6 小时约 $3/小时人力;机器人上门 3 小时约 $22
工厂捕捉产线工人 + 腕部传感器整个班次持续进行叠加于既有薪资之上
机器人训练场100 台机器人,装设仪器每台每天约 4 小时;每天约 12,000 项任务固定场地(10,000+ m²)
计划目标(京东,宿迁)10 万内部 + 50 万外部两年内 1,000 万小时(第一年 500 万为人类视频)受补贴、与政府合作

这些数字来自不同的运营方,不该被加总成一个漂亮的总和,但方向毫不含糊:人类视频数据正被当成一种大宗商品投入物,定价贴近最低薪资的劳动力,并由数十万人并行产出。

实务笔记

如果我在打造任何牵涉到操作(manipulation)的东西,我会停止把数据收集当成模型的脚注。以下是几件我真的会去做的事:

被忽略的角度

每个人都在争论合成数据对上真实数据。被低估的变量是谁拥有这条劳动力管线。这件事之所以集中在一个地方,并不是因为某项模型突破——而是因为你可以建起一个「数据收集社区」,用地方政府补贴它,并付给人们一小时几美元去为他们的日常生活装上仪器。这是一种产业政策与物流上的优势,而非算法上的优势,而且对一家西方初创而言,要在价格上复制它,比复制另一种 transformer 架构困难得多。

第二序的风险:一整个世代的通用型机器人策略,最终可能不成比例地在单一国家的住家、厨房、工厂与店面格局上受训。这会把分布偏误(distributional bias)烤进去——一台看过一百万间中国公寓、却极少看过美国或欧洲公寓的机器人,可能在被部署到别处的那一刻悄悄表现变差,而没有人会在某个基准分数上看到这件事。对于身处那条管线之外的开发者,正确的做法不是在人类视频收割上花得比别人多,而是针对你要出货进去的确切环境,拥有一个范围狭窄、高质量、在地扎根的数据集——并确保你拿来微调的基础模型,没有悄悄把别人的客厅当成先验(prior)导入进来。


Sources

请喝咖啡