2026-05-02
ロボティクスのワールドモデル — Cosmos、Genie 3、V-JEPA-2 を開発者向けに解説
NVIDIA Cosmos、Google Genie 3、Meta V-JEPA-2 はそれぞれエンボディド AI の合成学習データに対し異なる賭けをしています。各モデルの実用範囲と、ワールドモデルがテレオペを置き換えられるかという未解決の問いを整理します。
エンボディド AI の今日のボトルネックは計算資源やモデル容量ではなく 学習データ です。テレオペ装置は 1 台あたり 1 日約 50 時間の実演を収集できますが、ラベリングが隠れた制約です。ワールドモデルはこの問題への解になり得ます — 学習されたシミュレータが十分忠実なら、ロボットはその中で数百万の軌跡を学習できる。3 つの研究所がこの賭けをリードしています。
NVIDIA Cosmos — ポリシー学習の主力
Cosmos は、アクション系列を条件にロボット視点の写実的映像を生成する、オープンウェイトの拡散 + 自己回帰モデル群です。重要な仕様は 接触の多いタスクでの物理整合性:ピック&プレース、関節物体、変形物。1 秒のシード映像 + アクションプランを与えると、ロボットが見る次の 5–10 秒の一人称映像を予測します。
得意:VLA モデル微調整用の合成実演を数百万本生成。苦手:学習分布外のシーン(特殊照明の工場、雑然とした家庭キッチン)。Figure と Boston Dynamics が 2026 Q1 の学習パイプラインで使用中。
Google DeepMind Genie 3 — インタラクティブ・シミュレーション
Genie 3 は 3 者の中で唯一 リアルタイムでインタラクト できます — アクションを与えると次フレームを生成。2026 年 3 月に注目を集めた能力は、1280×720 解像度・24 fps、約 2 分のインタラクションで物体永続性を維持。
ロボティクスでの売り:手作りの物理エンジンより実世界分布に近い学習シミュレータでの強化学習ロールアウト。問題点:ロボットポリシーが信頼性高く学習できる形で接触力や動力学を露出していない。高レベル・ナビゲーションには適しますが、操作には不向き。
Meta V-JEPA-2 — 表現学習、生成ではない
V-JEPA-2 は逆のアプローチを取ります:ピクセル生成ではなく、シーンが時間的にどう発展するかの潜在表現を学習。動画エンコーダとして、ピクセル生成のコストなしにロボットへ有用な内部状態を提供できます。論文は動画理解とアクション予測ベンチマークで SOTA を主張。
開発者向け:V-JEPA-2 は凍結した知覚バックボーンとして、その上にポリシーを学習する場面に最適。3 者の中で推論コストも最安 — Cosmos と Genie 3 はマルチ GPU 推論が必要、V-JEPA-2 は単一 H100 で動作。
未解決の問い — ワールドモデルはテレオペを置き換えられるか?
2026 年 5 月の正直な答え:まだ無理。ただしギャップは年 2 倍ペースで縮まっている。ワールドモデルが実世界データ収集を置き換えるには 3 つの条件が必要:
- 接触力の忠実度。Cosmos が最も近いが、実機ロールアウトでは起きない失敗モードを幻覚する。
- 長時間の整合性。Genie 3 は約 2 分後にドリフト;実タスクは 5–15 分にわたる。
- クロス・エンボディメント汎化。ヒューマノイド映像で学習したモデルは、車輪型・単腕型へまだうまく転移しない。
これらが解決されるまで、運用上の答えは ハイブリッド:ワールドモデルでテレオペデータを 10× 増強しつつ、ロングテール用に実演収集は継続する。
実装ノート
- VLA をゼロから学習:Cosmos ロールアウトと実テレオペを 5:1 の合成対実比で組み合わせる。公開アブレーションでは 5:1 を超えると効果が頭打ち。
- 既存 VLA を微調整:ワールドモデルデータは飛ばし、対象環境の実テレオペに集中。ワールドモデルデータは微調整を希釈する。
- 推論コスト計算:Cosmos の単一 H100 上での 24 fps 動画生成は約 $0.02/秒。1 時間の合成データセットで約 $72。
- 行動模倣の知覚エンコーダとしての V-JEPA-2 は現在過小評価 — 多くのチームがまだ CLIP や DINOv2 をデフォルトにしており、これは即勝ちポイント。