2026-06-08
人形機器人的瓶頸不是硬體——而是資料,而中國正用付費人類影片硬解這個問題
— 次瀏覽
6 月 3 日一篇報導詳述京東等公司如何以每小時 3 美元僱用普通人拍攝家務,好讓人形機器人學習。真正的實體 AI 競賽是在搶訓練資料,而其供應鏈正被工業化。
發生了什麼
今年春天那些搶眼的實體 AI 頭條都圍繞在硬體與資金——工廠產線、部署計畫、數十億美元的募資。更重要的故事其實更安靜,它出現在 Rest of World 6 月 3 日的一篇報導中:人形機器人的資料供應鏈正被工業化,而此刻中國正以無人能及的規模在推進這件事。
最清楚的例子是京東(JD.com)。該公司與宿遷當地政府合作,目標是在兩年內取得 1,000 萬小時的機器人訓練資料——而其細項分配很重要。根據 Gasgoo 的報導,這項計畫在第一年前置投入500 萬小時的真實世界人類情境影片,第二年突破 1,000 萬小時,並在此之上額外加入約100 萬小時的機器人本體資料。為了收集這些資料,京東表示將動員橫跨物流、製造、醫療、家庭服務與城市營運的100 多種場景中超過 10 萬名內部員工以及多達 50 萬名外部工作者。
收集的方法才是開發者該好好思考的部分。這不是實驗室裡昂貴的遠端操作(teleoperation)裝備,而是戴著頭戴式攝影機的普通人。Rest of World 描述了一位在家工作者每天拍攝家務六小時、每小時 20 元人民幣(約 3 美元),以及一位屋主付了 149 元人民幣(約 22 美元)進行為時三小時的到府收集,過程中一台來自深圳的 X Square Robot 機器人練習摺疊幾件衣物並擺放鞋子。廣東的工廠工人則戴著頭戴式攝影機加上腕部感測器,以捕捉產線上的手部動作。
為何閘門是資料,而非硬體
這件事唯有放在具身 AI(embodied AI)那種根本性的不對稱底下才說得通。正如 MIT Technology Review 早在 2024 年所描述的,機器人所需的資料「比用來訓練 GPT 這類最先進 AI 模型的資料難取得得多——後者大多是從網路上抓取的文字、圖片與影片。」語言模型吃的是開放網路。一套機器人策略需要同步的攝影機畫面、關節角度、夾爪力道與任務情境——全都得在真正的物理互動過程中錄製。這種資料根本不存在於網際網路規模,而且「真實世界資料相對稀缺,往往需要多得多的時間、心力與昂貴設備來收集。」
白話說:你無法靠抓取網路資料一路走到一套通用型操作策略。必須有人在裝設儀器的情況下,親身把這些任務做上數百萬次。誰能用最便宜、最廣泛的方式把這條管線建起來,誰就能得到更好的模型。
這也重新框定了近期的硬體里程碑。一座每小時量產人形機器人的工廠很驚人,但一台沒有多樣、任務專屬資料的機器人不過是昂貴的人偶。部署與資料收割其實是同一個專案:每一位裝設儀器的工作者、每一台在訓練場上的機器人,都是一個資料生成節點。
產出量的計算
中國的做法本質上是把勞動力大規模轉換成示範資料。People’s Daily(4 月 28 日)報導,在石景山訓練中心——一處超過 10,000 平方公尺的場地——100 台人形機器人於 2025 年 10 月開始訓練,每台機器人每天約產生四小時的訓練資料。以兩分鐘的取樣間隔計算,營運方表示 100 台機器人每天可完成至少 12,000 項資料收集任務,內容包括摺衣服、分揀包裹、掃描條碼與開鎖等家務。
把它們疊在一起,兩種收集模式看起來是這樣:
| 來源 | 操作者 | 速率/規模 | 成本訊號 |
|---|---|---|---|
| 家庭影片(第一人稱) | 居民,頭戴式攝影機 | 每人每天約 6 小時 | 約 $3/小時人力;機器人到府 3 小時約 $22 |
| 工廠捕捉 | 產線工人 + 腕部感測器 | 整個班次持續進行 | 疊加於既有薪資之上 |
| 機器人訓練場 | 100 台機器人,裝設儀器 | 每台每天約 4 小時;每天約 12,000 項任務 | 固定場地(10,000+ m²) |
| 計畫目標(京東,宿遷) | 10 萬內部 + 50 萬外部 | 兩年內 1,000 萬小時(第一年 500 萬為人類影片) | 受補貼、與政府合作 |
這些數字來自不同的營運方,不該被加總成一個漂亮的總和,但方向毫不含糊:人類影片資料正被當成一種大宗商品投入物,定價貼近最低薪資的勞動力,並由數十萬人並行產出。
實務筆記
如果我在打造任何牽涉到操作(manipulation)的東西,我會停止把資料收集當成模型的註腳。以下是幾件我真的會去做的事:
- 把資料當成主要支出項目來編預算,而不是模型。 這裡便宜、可擴展的訊號是第一人稱人類影片(頭戴式攝影機、第一人稱視角的雙手),而不是實驗室遠端操作。如果你只花錢買乾淨的遠端操作示範,你是在付零售價,而別人在批發採購。
- 一開始就為跨形態(cross-embodiment)落差做設計。 人手影片與某一款特定夾爪不是同一種形態。會勝出的團隊,是那些擁有重定向/適配層(retargeting/adaptation layer),能把「人摺一件襯衫」轉換成「這台機器人摺一件襯衫」的團隊。從第一天就把這點烤進資料結構裡(同步時間戳、能取得時就取得力道、一致的攝影機內參)。
- 別假設小時數等於能力。 一千萬小時某人煮晚餐,不等於一千萬小時你的任務。我會給針對確切部署、範圍緊湊、標註良好的一小組資料更高權重,而不是一個龐大的通用資料傾倒,並只把通用語料當作預訓練用途。
- 留意同意與來源出處(provenance)這個面向。 人們在家中的影片就是資產。如果你出貨一個以此訓練的產品,你會希望現在就有乾淨的授權與來源出處,而不是日後變成一個被「發現程序」(discovery)翻查的問題。
被忽略的角度
每個人都在爭論合成資料對上真實資料。被低估的變數是誰擁有這條勞動力管線。這件事之所以集中在一個地方,並不是因為某項模型突破——而是因為你可以建起一個「資料收集社區」,用地方政府補貼它,並付給人們一小時幾美元去為他們的日常生活裝上儀器。這是一種產業政策與物流上的優勢,而非演算法上的優勢,而且對一家西方新創而言,要在價格上複製它,比複製另一種 transformer 架構困難得多。
第二序的風險:一整個世代的通用型機器人策略,最終可能不成比例地在單一國家的住家、廚房、工廠與店面格局上受訓。這會把分布偏誤(distributional bias)烤進去——一台看過一百萬間中國公寓、卻極少看過美國或歐洲公寓的機器人,可能在被部署到別處的那一刻悄悄表現變差,而沒有人會在某個基準分數上看到這件事。對於身處那條管線之外的開發者,正確的做法不是在人類影片收割上花得比別人多,而是針對你要出貨進去的確切環境,擁有一個範圍狹窄、高品質、在地紮根的資料集——並確保你拿來微調的基礎模型,沒有悄悄把別人的客廳當成先驗(prior)匯入進來。
Sources
- How China is using human labor to win the humanoid robot data race — Rest of World ↗
- JD.com to Build World's Largest Embodied Intelligence Data Collection Center — Gasgoo ↗
- China's humanoid robot training centers multiply as sector gains momentum — People's Daily Online ↗
- The robot race is fueling a fight for training data — MIT Technology Review ↗