2026-06-08
人形机器人背后的瓶颈不是硬件——而是数据,而中国正用付费人类视频硬解这个问题
— 次浏览
6 月 3 日一篇报道详述京东等公司如何以每小时 3 美元雇用普通人拍摄家务,好让人形机器人学习。真正的实体 AI 竞赛是在抢训练数据,而其供应链正被工业化。
发生了什么
今年春天那些抢眼的实体 AI 头条都围绕在硬件与资金——工厂产线、部署计划、数十亿美元的融资。更重要的故事其实更安静,它出现在 Rest of World 6 月 3 日的一篇报道中:人形机器人的数据供应链正被工业化,而此刻中国正以无人能及的规模在推进这件事。
最清楚的例子是京东(JD.com)。该公司与宿迁当地政府合作,目标是在两年内取得 1,000 万小时的机器人训练数据——而其细项分配很重要。根据 Gasgoo 的报道,这项计划在第一年前置投入500 万小时的真实世界人类情境视频,第二年突破 1,000 万小时,并在此之上额外加入约100 万小时的机器人本体数据。为了收集这些数据,京东表示将动员横跨物流、制造、医疗、家庭服务与城市运营的100 多种场景中超过 10 万名内部员工以及多达 50 万名外部工作者。
收集的方法才是开发者该好好思考的部分。这不是实验室里昂贵的远程操作(teleoperation)装备,而是戴着头戴式摄影机的普通人。Rest of World 描述了一位在家工作者每天拍摄家务六小时、每小时 20 元人民币(约 3 美元),以及一位屋主付了 149 元人民币(约 22 美元)进行为时三小时的上门收集,过程中一台来自深圳的 X Square Robot 机器人练习折叠几件衣物并摆放鞋子。广东的工厂工人则戴着头戴式摄影机加上腕部传感器,以捕捉产线上的手部动作。
为何闸门是数据,而非硬件
这件事唯有放在具身 AI(embodied AI)那种根本性的不对称底下才说得通。正如 MIT Technology Review 早在 2024 年所描述的,机器人所需的数据「比用来训练 GPT 这类最先进 AI 模型的数据难取得得多——后者大多是从网络上抓取的文字、图片与视频。」语言模型吃的是开放网络。一套机器人策略需要同步的摄影机画面、关节角度、夹爪力道与任务情境——全都得在真正的物理交互过程中录制。这种数据根本不存在于互联网规模,而且「真实世界数据相对稀缺,往往需要多得多的时间、心力与昂贵设备来收集。」
白话说:你无法靠抓取网络数据一路走到一套通用型操作策略。必须有人在装设仪器的情况下,亲身把这些任务做上数百万次。谁能用最便宜、最广泛的方式把这条管线建起来,谁就能得到更好的模型。
这也重新框定了近期的硬件里程碑。一座每小时量产人形机器人的工厂很惊人,但一台没有多样、任务专属数据的机器人不过是昂贵的人偶。部署与数据收割其实是同一个项目:每一位装设仪器的工作者、每一台在训练场上的机器人,都是一个数据生成节点。
产出量的计算
中国的做法本质上是把劳动力大规模转换成示范数据。People’s Daily(4 月 28 日)报道,在石景山训练中心——一处超过 10,000 平方米的场地——100 台人形机器人于 2025 年 10 月开始训练,每台机器人每天约产生四小时的训练数据。以两分钟的采样间隔计算,运营方表示 100 台机器人每天可完成至少 12,000 项数据收集任务,内容包括折衣服、分拣包裹、扫描条码与开锁等家务。
把它们叠在一起,两种收集模式看起来是这样:
| 来源 | 操作者 | 速率/规模 | 成本信号 |
|---|---|---|---|
| 家庭视频(第一人称) | 居民,头戴式摄影机 | 每人每天约 6 小时 | 约 $3/小时人力;机器人上门 3 小时约 $22 |
| 工厂捕捉 | 产线工人 + 腕部传感器 | 整个班次持续进行 | 叠加于既有薪资之上 |
| 机器人训练场 | 100 台机器人,装设仪器 | 每台每天约 4 小时;每天约 12,000 项任务 | 固定场地(10,000+ m²) |
| 计划目标(京东,宿迁) | 10 万内部 + 50 万外部 | 两年内 1,000 万小时(第一年 500 万为人类视频) | 受补贴、与政府合作 |
这些数字来自不同的运营方,不该被加总成一个漂亮的总和,但方向毫不含糊:人类视频数据正被当成一种大宗商品投入物,定价贴近最低薪资的劳动力,并由数十万人并行产出。
实务笔记
如果我在打造任何牵涉到操作(manipulation)的东西,我会停止把数据收集当成模型的脚注。以下是几件我真的会去做的事:
- 把数据当成主要支出项目来编预算,而不是模型。 这里便宜、可扩展的信号是第一人称人类视频(头戴式摄影机、第一人称视角的双手),而不是实验室远程操作。如果你只花钱买干净的远程操作示范,你是在付零售价,而别人在批发采购。
- 一开始就为跨形态(cross-embodiment)落差做设计。 人手视频与某一款特定夹爪不是同一种形态。会胜出的团队,是那些拥有重定向/适配层(retargeting/adaptation layer),能把「人折一件衬衫」转换成「这台机器人折一件衬衫」的团队。从第一天就把这点烤进数据结构里(同步时间戳、能取得时就取得力道、一致的摄影机内参)。
- 别假设小时数等于能力。 一千万小时某人煮晚餐,不等于一千万小时你的任务。我会给针对确切部署、范围紧凑、标注良好的一小组数据更高权重,而不是一个庞大的通用数据倾倒,并只把通用语料当作预训练用途。
- 留意同意与来源出处(provenance)这个面向。 人们在家中的视频就是资产。如果你出货一个以此训练的产品,你会希望现在就有干净的授权与来源出处,而不是日后变成一个被「发现程序」(discovery)翻查的问题。
被忽略的角度
每个人都在争论合成数据对上真实数据。被低估的变量是谁拥有这条劳动力管线。这件事之所以集中在一个地方,并不是因为某项模型突破——而是因为你可以建起一个「数据收集社区」,用地方政府补贴它,并付给人们一小时几美元去为他们的日常生活装上仪器。这是一种产业政策与物流上的优势,而非算法上的优势,而且对一家西方初创而言,要在价格上复制它,比复制另一种 transformer 架构困难得多。
第二序的风险:一整个世代的通用型机器人策略,最终可能不成比例地在单一国家的住家、厨房、工厂与店面格局上受训。这会把分布偏误(distributional bias)烤进去——一台看过一百万间中国公寓、却极少看过美国或欧洲公寓的机器人,可能在被部署到别处的那一刻悄悄表现变差,而没有人会在某个基准分数上看到这件事。对于身处那条管线之外的开发者,正确的做法不是在人类视频收割上花得比别人多,而是针对你要出货进去的确切环境,拥有一个范围狭窄、高质量、在地扎根的数据集——并确保你拿来微调的基础模型,没有悄悄把别人的客厅当成先验(prior)导入进来。
Sources
- How China is using human labor to win the humanoid robot data race — Rest of World ↗
- JD.com to Build World's Largest Embodied Intelligence Data Collection Center — Gasgoo ↗
- China's humanoid robot training centers multiply as sector gains momentum — People's Daily Online ↗
- The robot race is fueling a fight for training data — MIT Technology Review ↗