2026-06-08

人形机器人背后的瓶颈不是硬件——而是数据，而中国正用付费人类视频硬解这个问题

— 次浏览

6 月 3 日一篇报道详述京东等公司如何以每小时 3 美元雇用普通人拍摄家务，好让人形机器人学习。真正的实体 AI 竞赛是在抢训练数据，而其供应链正被工业化。

发生了什么

今年春天那些抢眼的实体 AI 头条都围绕在硬件与资金——工厂产线、部署计划、数十亿美元的融资。更重要的故事其实更安静，它出现在 Rest of World 6 月 3 日的一篇报道中：人形机器人的数据供应链正被工业化，而此刻中国正以无人能及的规模在推进这件事。

最清楚的例子是京东（JD.com）。该公司与宿迁当地政府合作，目标是在两年内取得 1,000 万小时的机器人训练数据——而其细项分配很重要。根据 Gasgoo 的报道，这项计划在第一年前置投入500 万小时的真实世界人类情境视频，第二年突破 1,000 万小时，并在此之上额外加入约100 万小时的机器人本体数据。为了收集这些数据，京东表示将动员横跨物流、制造、医疗、家庭服务与城市运营的100 多种场景中超过 10 万名内部员工以及多达 50 万名外部工作者。

收集的方法才是开发者该好好思考的部分。这不是实验室里昂贵的远程操作（teleoperation）装备，而是戴着头戴式摄影机的普通人。Rest of World 描述了一位在家工作者每天拍摄家务六小时、每小时 20 元人民币（约 3 美元），以及一位屋主付了 149 元人民币（约 22 美元）进行为时三小时的上门收集，过程中一台来自深圳的 X Square Robot 机器人练习折叠几件衣物并摆放鞋子。广东的工厂工人则戴着头戴式摄影机加上腕部传感器，以捕捉产线上的手部动作。

为何闸门是数据，而非硬件

这件事唯有放在具身 AI（embodied AI）那种根本性的不对称底下才说得通。正如 MIT Technology Review 早在 2024 年所描述的，机器人所需的数据「比用来训练 GPT 这类最先进 AI 模型的数据难取得得多——后者大多是从网络上抓取的文字、图片与视频。」语言模型吃的是开放网络。一套机器人策略需要同步的摄影机画面、关节角度、夹爪力道与任务情境——全都得在真正的物理交互过程中录制。这种数据根本不存在于互联网规模，而且「真实世界数据相对稀缺，往往需要多得多的时间、心力与昂贵设备来收集。」

白话说：你无法靠抓取网络数据一路走到一套通用型操作策略。必须有人在装设仪器的情况下，亲身把这些任务做上数百万次。谁能用最便宜、最广泛的方式把这条管线建起来，谁就能得到更好的模型。

这也重新框定了近期的硬件里程碑。一座每小时量产人形机器人的工厂很惊人，但一台没有多样、任务专属数据的机器人不过是昂贵的人偶。部署与数据收割其实是同一个项目：每一位装设仪器的工作者、每一台在训练场上的机器人，都是一个数据生成节点。

产出量的计算

中国的做法本质上是把劳动力大规模转换成示范数据。People’s Daily（4 月 28 日）报道，在石景山训练中心——一处超过 10,000 平方米的场地——100 台人形机器人于 2025 年 10 月开始训练，每台机器人每天约产生四小时的训练数据。以两分钟的采样间隔计算，运营方表示 100 台机器人每天可完成至少 12,000 项数据收集任务，内容包括折衣服、分拣包裹、扫描条码与开锁等家务。

把它们叠在一起，两种收集模式看起来是这样：

来源	操作者	速率／规模	成本信号
家庭视频（第一人称）	居民，头戴式摄影机	每人每天约 6 小时	约 $3/小时人力；机器人上门 3 小时约 $22
工厂捕捉	产线工人 + 腕部传感器	整个班次持续进行	叠加于既有薪资之上
机器人训练场	100 台机器人，装设仪器	每台每天约 4 小时；每天约 12,000 项任务	固定场地（10,000+ m²）
计划目标（京东，宿迁）	10 万内部 + 50 万外部	两年内 1,000 万小时（第一年 500 万为人类视频）	受补贴、与政府合作

这些数字来自不同的运营方，不该被加总成一个漂亮的总和，但方向毫不含糊：人类视频数据正被当成一种大宗商品投入物，定价贴近最低薪资的劳动力，并由数十万人并行产出。

实务笔记

如果我在打造任何牵涉到操作（manipulation）的东西，我会停止把数据收集当成模型的脚注。以下是几件我真的会去做的事：

把数据当成主要支出项目来编预算，而不是模型。 这里便宜、可扩展的信号是第一人称人类视频（头戴式摄影机、第一人称视角的双手），而不是实验室远程操作。如果你只花钱买干净的远程操作示范，你是在付零售价，而别人在批发采购。
一开始就为跨形态（cross-embodiment）落差做设计。 人手视频与某一款特定夹爪不是同一种形态。会胜出的团队，是那些拥有重定向／适配层（retargeting/adaptation layer），能把「人折一件衬衫」转换成「这台机器人折一件衬衫」的团队。从第一天就把这点烤进数据结构里（同步时间戳、能取得时就取得力道、一致的摄影机内参）。
别假设小时数等于能力。 一千万小时某人煮晚餐，不等于一千万小时你的任务。我会给针对确切部署、范围紧凑、标注良好的一小组数据更高权重，而不是一个庞大的通用数据倾倒，并只把通用语料当作预训练用途。
留意同意与来源出处（provenance）这个面向。 人们在家中的视频就是资产。如果你出货一个以此训练的产品，你会希望现在就有干净的授权与来源出处，而不是日后变成一个被「发现程序」（discovery）翻查的问题。

被忽略的角度

每个人都在争论合成数据对上真实数据。被低估的变量是谁拥有这条劳动力管线。这件事之所以集中在一个地方，并不是因为某项模型突破——而是因为你可以建起一个「数据收集社区」，用地方政府补贴它，并付给人们一小时几美元去为他们的日常生活装上仪器。这是一种产业政策与物流上的优势，而非算法上的优势，而且对一家西方初创而言，要在价格上复制它，比复制另一种 transformer 架构困难得多。

第二序的风险：一整个世代的通用型机器人策略，最终可能不成比例地在单一国家的住家、厨房、工厂与店面格局上受训。这会把分布偏误（distributional bias）烤进去——一台看过一百万间中国公寓、却极少看过美国或欧洲公寓的机器人，可能在被部署到别处的那一刻悄悄表现变差，而没有人会在某个基准分数上看到这件事。对于身处那条管线之外的开发者，正确的做法不是在人类视频收割上花得比别人多，而是针对你要出货进去的确切环境，拥有一个范围狭窄、高质量、在地扎根的数据集——并确保你拿来微调的基础模型，没有悄悄把别人的客厅当成先验（prior）导入进来。