2026-06-08

ヒューマノイドロボットのボトルネックはハードウェアではない——データだ。そして中国は有償の人間動画でそれを力技で解いている

— ビュー

6月3日の報道は、JD.comなどがヒューマノイドに学習させるため、一般人に時給3ドルで家事を撮影させている実態を詳述する。真のフィジカルAI競争は学習データを巡るもので、その供給網は工業化されつつある。

何が登場したか

この春の華やかなフィジカルAIの見出しは、ハードウェアと資金——工場ライン、展開計画、数十億ドル規模の調達——に関するものだった。より重要な物語はもっと静かで、Rest of Worldの6月3日の報道に現れた。すなわち、ヒューマノイドロボット向けのデータ供給網が工業化されつつあり、今まさに中国が他の誰も並べない規模でそれを進めているのだ。

最も明快な例がJD.comである。同社は宿遷の地方政府と組み、2年間で1,000万時間のロボット学習データを目標に掲げている——そしてその内訳が重要だ。Gasgooの報道によれば、計画は1年目に実世界の人間シナリオ動画500万時間を前倒しで投入し、2年目には1,000万時間を超え、その上にさらにおよそ100万時間のロボット本体データを積み増す。これを収集するためにJDは、物流、製造、ヘルスケア、家庭向けサービス、都市運営にまたがる100以上のシナリオで、10万人を超える内部従業員と最大50万人の外部ワーカーを動員するという。

ビルダーが腰を据えて考えるべきは、その収集方法だ。これはラボにある高価なテレオペレーション（遠隔操作）装備ではない。ヘッドカメラを装着した一般人なのだ。Rest of Worldは、1日6時間、時給20元（約3ドル）で家事を撮影する在宅ワーカーや、深圳拠点の X Square Robot のロボットが衣類を数点たたみ靴を並べる練習をした3時間の訪問セッションに149元（約22ドル）を支払った住宅所有者を描いている。広東省の工場労働者は、ライン上の手の動きを捉えるためにヘッドカメラと手首センサーを装着する。

なぜハードウェアではなくデータが関門なのか

これは具現化AI（embodied AI）の根本的な非対称性に照らして初めて筋が通る。MIT Technology Reviewが2024年に表現したように、ロボットに必要なデータは「GPTのような最先端AIモデルの学習に使われるデータ——その大半はインターネットから収集されたテキスト、画像、動画だ——よりもはるかに手に入れにくい」。言語モデルはオープンなウェブを食べる。ロボットのポリシーには、同期したカメラフレーム、関節角度、グリッパーの力、タスクの文脈が必要であり、それらはすべて実際の物理的相互作用の最中に記録されなければならない。そうしたデータはインターネット規模では端的に存在せず、「実世界データは相対的に希少で、収集にはるかに多くの時間、労力、高価な機材を要する傾向がある」。

言い換えれば、汎用的な操作（マニピュレーション）ポリシーには、スクレイピングだけでは到達できない。誰かが計測機器を付けた状態で、何百万回も物理的にタスクをこなさなければならない。そのパイプラインを最も安く、最も広く立ち上げられた者が、より良いモデルを手にする。

それは最近のハードウェアの節目を捉え直す。1時間あたりにヒューマノイドを量産する工場は印象的だが、多様でタスク固有のデータを持たないロボットは高価なマネキンにすぎない。展開とデータ収穫は同一のプロジェクトなのだ。計測機器を付けた労働者一人ひとり、訓練フロアのロボット一台一台が、データ生成ノードである。

スループットの計算

中国のアプローチは本質的に、労働力を大量のデモンストレーションへと変換するものだ。People’s Daily（4月28日）の報道によれば、石景山の訓練センター——10,000平方メートルを超える施設——では、2025年10月に100台のヒューマノイドロボットが訓練を開始し、各ロボットが1日あたりおよそ4時間の学習データを生成している。2分のサンプリング間隔で、運営者は100台のロボットが、衣類をたたむ、小包を仕分ける、バーコードを読み取る、錠を開けるといった家事で、1日あたり少なくとも12,000件のデータ収集タスクをこなせるとしている。

積み上げると、2つの収集モードは次のようになる：

出所	操作者	レート／規模	コストのシグナル
家庭動画（一人称視点）	住人、ヘッドカメラ	一人あたり約6時間/日	約$3/時の労働；ロボット訪問3時間で約$22
工場での収集	ライン労働者＋手首センサー	シフト中は継続	既存の賃金に上乗せ
ロボット訓練フロア	100台、計測機器付き	1台あたり約4時間/日；約12,000タスク/日	固定施設（10,000+ m²）
プログラム目標（JD、宿遷）	内部10万人＋外部50万人	2年で1,000万時間（1年目500万は人間動画）	補助金付き、政府連携

これらの数字は異なる運営者から来ており、一つのきれいな合計に足し上げるべきではないが、方向性は明白だ。すなわち、人間動画データはコモディティの投入物として扱われ、最低賃金に近い労働力で価格付けされ、数十万人によって並行して生産されている。

実務メモ

もし私が操作（マニピュレーション）に触れる何かを作るなら、データ収集をモデルの脚注として扱うのをやめるだろう。私が実際にやるであろういくつかのこと：

モデルではなく、データを主要な費目として予算化する。 ここでの安価でスケールするシグナルは、ラボのテレオペレーションではなく一人称視点の人間動画（ヘッドカメラ、一人称の手）だ。きれいなテレオペのデモだけに金を払っているなら、他者が卸値で買う中で君は小売価格を払っている。
クロス・エンボディメント（身体の異種性）のギャップを最初から設計に織り込む。 人の手の動画と特定のグリッパーは同じモルフォロジー（形態）ではない。勝つチームは、「人がシャツをたたむ」を「このロボットがシャツをたたむ」へ変換するリターゲティング／適応レイヤーを持つチームだ。それを初日からデータスキーマに焼き込む（タイムスタンプの同期、取得できる場合は力、一貫したカメラ内部パラメータ）。
時間数が能力に等しいと仮定するな。 誰かが夕食を作る1,000万時間は、君のタスクの1,000万時間ではない。私は、巨大な汎用データの投げ込みよりも、まさにその展開向けに範囲を絞り込み、丁寧にラベル付けした小さなセットを重く見て、汎用コーパスは事前学習専用として扱うだろう。
同意と来歴（provenance）の側面に目を配る。 人々の家庭内の動画こそが資産だ。それで学習した製品を出すなら、後でディスカバリー（証拠開示）の問題になる前に、今のうちにクリーンなライセンスと来歴を確保したい。

見落とされがちな視点

誰もが合成データ対実データを論じている。あまり議論されていない変数は、誰がその労働力パイプラインを所有しているかだ。これが一箇所に集中している理由はモデルのブレークスルーではない——「データ収集の街区」を立ち上げ、それを地方政府で補助し、人々に時給数ドルを払って日常生活に計測機器を付けさせられる、ということなのだ。それはアルゴリズム上ではなく産業政策と物流上の優位であり、別のトランスフォーマー・アーキテクチャを複製するよりも、西側のスタートアップが価格面で複製するのははるかに難しい。

二次的なリスク：汎用ロボットポリシーの一世代が、ある一国の家庭、台所、工場、店舗レイアウトに偏って学習させられて終わる可能性がある。それは分布バイアスを焼き込む——100万軒の中国のアパートを見て、米国や欧州のそれをごくわずかしか見ていないロボットは、他所に展開された瞬間に静かに性能が落ちるかもしれず、しかも誰もそれをベンチマークの数字では見ないだろう。そのパイプラインの外にいるビルダーにとっての一手は、人間動画の収穫で相手より多く費やすことではない。それは、君が出荷していくまさにその環境向けに、範囲が狭く、高品質で、現地に根ざしたデータセットを所有すること——そして、君がファインチューニングする基盤モデルが、他人の居間を事前分布（prior）として静かに取り込んでいないことを確かめることだ。