Builder Daily

2026-05-02

機器人世界模型——為開發者解析 Cosmos、Genie 3、V-JEPA-2

NVIDIA Cosmos、Google Genie 3、Meta V-JEPA-2 各自押注不同的具身 AI 合成訓練資料路徑。本文說明三者實際適用情境,以及世界模型能否取代遙控示範這個關鍵問題。

具身 AI 今天的瓶頸不是算力或模型容量,而是訓練資料。一台遙控示範裝置每天約能收集 50 小時,標註則是隱性瓶頸。世界模型提供了一條出路:如果學到的模擬器夠真實,機器人就能在裡面跑數百萬條軌跡。三家實驗室在領跑這場賭注。

NVIDIA Cosmos——策略訓練的主力

Cosmos 是一系列開放權重的擴散+自回歸模型,能根據動作序列生成寫實的機器人視角影片。關鍵規格是「接觸密集任務的物理一致性」:抓取放置、有關節的物體、可變形物體。給它 1 秒種子影片加上動作計畫,它能預測機器人接下來 5–10 秒會看到的第一視角畫面。

優點:產生數百萬條合成示範供 VLA 模型微調。缺點:訓練分布外的場景(光線特殊的工廠、雜亂的家庭廚房)效果差。Figure 與 Boston Dynamics 在 2026 Q1 訓練流程中已使用。

Google DeepMind Genie 3——互動式模擬

Genie 3 是三者中唯一能讓你即時互動的:你提供動作,它生成下一幀。2026 年 3 月引發注目的能力是 1280×720 解析度、24 fps,互動約 2 分鐘內物體仍保持一致性。

對機器人而言,Genie 3 的價值在於 RL rollouts 跑在比手刻物理引擎更接近真實分布的學習模擬器上。代價:目前不暴露機器人策略可靠學習所需的接觸力與動力學。適合高層導航策略,不適合操作任務。

Meta V-JEPA-2——表徵而非生成

V-JEPA-2 採取相反路徑:不生成像素,而是學習場景如何演變的潛在表徵。可以當作影片編碼器,在不負擔像素級生成成本的前提下給機器人一個有用的內部狀態。論文宣稱在影片理解與動作預測基準上達到 SOTA。

對開發者而言:V-JEPA-2 適合當作凍結的感知主幹,再在上層訓練策略。也是三者中推論成本最低的——Cosmos 與 Genie 3 需要多 GPU 推論;V-JEPA-2 單張 H100 即可。

關鍵問題——世界模型能否取代遙控?

2026 年 5 月誠實的回答:還不能,但差距每年縮小一倍。世界模型要取代真實資料蒐集,需要三件事:

  1. 接觸力的逼真度。Cosmos 最接近,但仍會幻覺出實機不會發生的失敗模式。
  2. 長時序一致性。Genie 3 約 2 分鐘後開始飄;真實任務動輒 5–15 分鐘。
  3. 跨本體泛化。在人形影片上訓練的模型還無法良好遷移到輪式或單臂平台。

這些問題解決前,實務答案是混合:用世界模型把遙控資料增強 10×,但長尾仍要繼續蒐集真實示範。

實戰筆記


Sources

請喝咖啡