Builder Daily

2026-05-03

實體 AI 摘要 — 2026 Q2 人形機器人基礎模型

2026 Q2 有四個人形機器人基礎模型推出實機展示:NVIDIA GR00T N2、Tesla Optimus Gen 3、Figure 03、Physical Intelligence π0.5。Sim-to-Real 差距在縮小——但只縮在「有足夠遙控示範資料」的精細操作任務上。

人形機器人正在迎來自己的「ChatGPT 時刻」——只是更慢、更混亂、被資料量綁住。這一季真正落地的東西,以及它對開發者的意義:

四個值得關注的發表

1. NVIDIA GR00T N2 — 泛化型人形基礎模型

GR00T N2 是一個預訓練 Transformer,輸入 RGB + 本體感覺 + 語言,輸出任何人形平台的關節動作。頭條數字是 5 種機器人本體上 70+ 任務 zero-shot,但真正實用的數字是 fine-tune 比例:每個新任務只要約 30 分鐘的遙控資料,相比從零訓練要 8 小時。透過 Isaac Lab 與 Jetson Thor 開發套件提供。

2. Tesla Optimus Gen 3 — 垂直整合論述

Gen 3 從 57 kg 減重到 48 kg,手部增加到 22 DOF(Gen 2 是 11)。有趣的不是硬體——而是 Tesla 開始用驅動 FSD V14 的同一套 Dojo 訓練視覺語言堆疊來訓 Optimus。他們賭的是「駕駛資料規模能複利轉移到操作策略」。懷疑論者指出「看路」和「鎖螺絲」是完全不同的動作分佈。

3. Figure 03 — 商業部署先行

Figure 03 犧牲 DOF 換可靠度:總共 28 DOF,但在 BMW Spartanburg 廠的固定零件上料任務上,10,000+ 次測試達到 95%+ 成功率。教訓:2026 Q2 工廠採用「窄任務可靠度」勝過「泛化展示」。Figure 已宣布兩家德國車廠的五位數機器人訂單。

4. Physical Intelligence π0.5 — 資料的護城河

π0.5(朝向 π1 的半步)是這一季開放權重的驚喜。它在 Open X-Embodiment 2.0 資料集(1.2M 軌跡、35 種機器人本體)上訓練,效能比 GR00T N2 小 6 倍卻能打平。重點:在具身策略上,資料多樣性已經贏過參數量

對開發者的意義

Q3 值得關注


Sources

請喝咖啡