2026-05-02

機器人世界模型——為開發者解析 Cosmos、Genie 3、V-JEPA-2

NVIDIA Cosmos、Google Genie 3、Meta V-JEPA-2 各自押注不同的具身 AI 合成訓練資料路徑。本文說明三者實際適用情境，以及世界模型能否取代遙控示範這個關鍵問題。

具身 AI 今天的瓶頸不是算力或模型容量，而是訓練資料。一台遙控示範裝置每天約能收集 50 小時，標註則是隱性瓶頸。世界模型提供了一條出路：如果學到的模擬器夠真實，機器人就能在裡面跑數百萬條軌跡。三家實驗室在領跑這場賭注。

NVIDIA Cosmos——策略訓練的主力

Cosmos 是一系列開放權重的擴散+自回歸模型，能根據動作序列生成寫實的機器人視角影片。關鍵規格是「接觸密集任務的物理一致性」：抓取放置、有關節的物體、可變形物體。給它 1 秒種子影片加上動作計畫，它能預測機器人接下來 5–10 秒會看到的第一視角畫面。

優點：產生數百萬條合成示範供 VLA 模型微調。缺點：訓練分布外的場景（光線特殊的工廠、雜亂的家庭廚房）效果差。Figure 與 Boston Dynamics 在 2026 Q1 訓練流程中已使用。

Genie 3 是三者中唯一能讓你即時互動的：你提供動作，它生成下一幀。2026 年 3 月引發注目的能力是 1280×720 解析度、24 fps，互動約 2 分鐘內物體仍保持一致性。

對機器人而言，Genie 3 的價值在於 RL rollouts 跑在比手刻物理引擎更接近真實分布的學習模擬器上。代價：目前不暴露機器人策略可靠學習所需的接觸力與動力學。適合高層導航策略，不適合操作任務。

V-JEPA-2 採取相反路徑：不生成像素，而是學習場景如何演變的潛在表徵。可以當作影片編碼器，在不負擔像素級生成成本的前提下給機器人一個有用的內部狀態。論文宣稱在影片理解與動作預測基準上達到 SOTA。

對開發者而言：V-JEPA-2 適合當作凍結的感知主幹，再在上層訓練策略。也是三者中推論成本最低的——Cosmos 與 Genie 3 需要多 GPU 推論；V-JEPA-2 單張 H100 即可。

2026 年 5 月誠實的回答：還不能，但差距每年縮小一倍。世界模型要取代真實資料蒐集，需要三件事：

這些問題解決前，實務答案是混合：用世界模型把遙控資料增強 10×，但長尾仍要繼續蒐集真實示範。