2026-06-08

人形機器人的瓶頸不是硬體——而是資料，而中國正用付費人類影片硬解這個問題

— 次瀏覽

6 月 3 日一篇報導詳述京東等公司如何以每小時 3 美元僱用普通人拍攝家務，好讓人形機器人學習。真正的實體 AI 競賽是在搶訓練資料，而其供應鏈正被工業化。

發生了什麼

今年春天那些搶眼的實體 AI 頭條都圍繞在硬體與資金——工廠產線、部署計畫、數十億美元的募資。更重要的故事其實更安靜，它出現在 Rest of World 6 月 3 日的一篇報導中：人形機器人的資料供應鏈正被工業化，而此刻中國正以無人能及的規模在推進這件事。

最清楚的例子是京東（JD.com）。該公司與宿遷當地政府合作，目標是在兩年內取得 1,000 萬小時的機器人訓練資料——而其細項分配很重要。根據 Gasgoo 的報導，這項計畫在第一年前置投入500 萬小時的真實世界人類情境影片，第二年突破 1,000 萬小時，並在此之上額外加入約100 萬小時的機器人本體資料。為了收集這些資料，京東表示將動員橫跨物流、製造、醫療、家庭服務與城市營運的100 多種場景中超過 10 萬名內部員工以及多達 50 萬名外部工作者。

收集的方法才是開發者該好好思考的部分。這不是實驗室裡昂貴的遠端操作（teleoperation）裝備，而是戴著頭戴式攝影機的普通人。Rest of World 描述了一位在家工作者每天拍攝家務六小時、每小時 20 元人民幣（約 3 美元），以及一位屋主付了 149 元人民幣（約 22 美元）進行為時三小時的到府收集，過程中一台來自深圳的 X Square Robot 機器人練習摺疊幾件衣物並擺放鞋子。廣東的工廠工人則戴著頭戴式攝影機加上腕部感測器，以捕捉產線上的手部動作。

為何閘門是資料，而非硬體

這件事唯有放在具身 AI（embodied AI）那種根本性的不對稱底下才說得通。正如 MIT Technology Review 早在 2024 年所描述的，機器人所需的資料「比用來訓練 GPT 這類最先進 AI 模型的資料難取得得多——後者大多是從網路上抓取的文字、圖片與影片。」語言模型吃的是開放網路。一套機器人策略需要同步的攝影機畫面、關節角度、夾爪力道與任務情境——全都得在真正的物理互動過程中錄製。這種資料根本不存在於網際網路規模，而且「真實世界資料相對稀缺，往往需要多得多的時間、心力與昂貴設備來收集。」

白話說：你無法靠抓取網路資料一路走到一套通用型操作策略。必須有人在裝設儀器的情況下，親身把這些任務做上數百萬次。誰能用最便宜、最廣泛的方式把這條管線建起來，誰就能得到更好的模型。

這也重新框定了近期的硬體里程碑。一座每小時量產人形機器人的工廠很驚人，但一台沒有多樣、任務專屬資料的機器人不過是昂貴的人偶。部署與資料收割其實是同一個專案：每一位裝設儀器的工作者、每一台在訓練場上的機器人，都是一個資料生成節點。

產出量的計算

中國的做法本質上是把勞動力大規模轉換成示範資料。People’s Daily（4 月 28 日）報導，在石景山訓練中心——一處超過 10,000 平方公尺的場地——100 台人形機器人於 2025 年 10 月開始訓練，每台機器人每天約產生四小時的訓練資料。以兩分鐘的取樣間隔計算，營運方表示 100 台機器人每天可完成至少 12,000 項資料收集任務，內容包括摺衣服、分揀包裹、掃描條碼與開鎖等家務。

把它們疊在一起，兩種收集模式看起來是這樣：

來源	操作者	速率／規模	成本訊號
家庭影片（第一人稱）	居民，頭戴式攝影機	每人每天約 6 小時	約 $3/小時人力；機器人到府 3 小時約 $22
工廠捕捉	產線工人 + 腕部感測器	整個班次持續進行	疊加於既有薪資之上
機器人訓練場	100 台機器人，裝設儀器	每台每天約 4 小時；每天約 12,000 項任務	固定場地（10,000+ m²）
計畫目標（京東，宿遷）	10 萬內部 + 50 萬外部	兩年內 1,000 萬小時（第一年 500 萬為人類影片）	受補貼、與政府合作

這些數字來自不同的營運方，不該被加總成一個漂亮的總和，但方向毫不含糊：人類影片資料正被當成一種大宗商品投入物，定價貼近最低薪資的勞動力，並由數十萬人並行產出。

實務筆記

如果我在打造任何牽涉到操作（manipulation）的東西，我會停止把資料收集當成模型的註腳。以下是幾件我真的會去做的事：

把資料當成主要支出項目來編預算，而不是模型。 這裡便宜、可擴展的訊號是第一人稱人類影片（頭戴式攝影機、第一人稱視角的雙手），而不是實驗室遠端操作。如果你只花錢買乾淨的遠端操作示範，你是在付零售價，而別人在批發採購。
一開始就為跨形態（cross-embodiment）落差做設計。 人手影片與某一款特定夾爪不是同一種形態。會勝出的團隊，是那些擁有重定向／適配層（retargeting/adaptation layer），能把「人摺一件襯衫」轉換成「這台機器人摺一件襯衫」的團隊。從第一天就把這點烤進資料結構裡（同步時間戳、能取得時就取得力道、一致的攝影機內參）。
別假設小時數等於能力。 一千萬小時某人煮晚餐，不等於一千萬小時你的任務。我會給針對確切部署、範圍緊湊、標註良好的一小組資料更高權重，而不是一個龐大的通用資料傾倒，並只把通用語料當作預訓練用途。
留意同意與來源出處（provenance）這個面向。 人們在家中的影片就是資產。如果你出貨一個以此訓練的產品，你會希望現在就有乾淨的授權與來源出處，而不是日後變成一個被「發現程序」（discovery）翻查的問題。

被忽略的角度

每個人都在爭論合成資料對上真實資料。被低估的變數是誰擁有這條勞動力管線。這件事之所以集中在一個地方，並不是因為某項模型突破——而是因為你可以建起一個「資料收集社區」，用地方政府補貼它，並付給人們一小時幾美元去為他們的日常生活裝上儀器。這是一種產業政策與物流上的優勢，而非演算法上的優勢，而且對一家西方新創而言，要在價格上複製它，比複製另一種 transformer 架構困難得多。

第二序的風險：一整個世代的通用型機器人策略，最終可能不成比例地在單一國家的住家、廚房、工廠與店面格局上受訓。這會把分布偏誤（distributional bias）烤進去——一台看過一百萬間中國公寓、卻極少看過美國或歐洲公寓的機器人，可能在被部署到別處的那一刻悄悄表現變差，而沒有人會在某個基準分數上看到這件事。對於身處那條管線之外的開發者，正確的做法不是在人類影片收割上花得比別人多，而是針對你要出貨進去的確切環境，擁有一個範圍狹窄、高品質、在地紮根的資料集——並確保你拿來微調的基礎模型，沒有悄悄把別人的客廳當成先驗（prior）匯入進來。