2026-05-03
實體 AI 摘要 — 2026 Q2 人形機器人基礎模型
2026 Q2 有四個人形機器人基礎模型推出實機展示:NVIDIA GR00T N2、Tesla Optimus Gen 3、Figure 03、Physical Intelligence π0.5。Sim-to-Real 差距在縮小——但只縮在「有足夠遙控示範資料」的精細操作任務上。
人形機器人正在迎來自己的「ChatGPT 時刻」——只是更慢、更混亂、被資料量綁住。這一季真正落地的東西,以及它對開發者的意義:
四個值得關注的發表
1. NVIDIA GR00T N2 — 泛化型人形基礎模型
GR00T N2 是一個預訓練 Transformer,輸入 RGB + 本體感覺 + 語言,輸出任何人形平台的關節動作。頭條數字是 5 種機器人本體上 70+ 任務 zero-shot,但真正實用的數字是 fine-tune 比例:每個新任務只要約 30 分鐘的遙控資料,相比從零訓練要 8 小時。透過 Isaac Lab 與 Jetson Thor 開發套件提供。
2. Tesla Optimus Gen 3 — 垂直整合論述
Gen 3 從 57 kg 減重到 48 kg,手部增加到 22 DOF(Gen 2 是 11)。有趣的不是硬體——而是 Tesla 開始用驅動 FSD V14 的同一套 Dojo 訓練視覺語言堆疊來訓 Optimus。他們賭的是「駕駛資料規模能複利轉移到操作策略」。懷疑論者指出「看路」和「鎖螺絲」是完全不同的動作分佈。
3. Figure 03 — 商業部署先行
Figure 03 犧牲 DOF 換可靠度:總共 28 DOF,但在 BMW Spartanburg 廠的固定零件上料任務上,10,000+ 次測試達到 95%+ 成功率。教訓:2026 Q2 工廠採用「窄任務可靠度」勝過「泛化展示」。Figure 已宣布兩家德國車廠的五位數機器人訂單。
4. Physical Intelligence π0.5 — 資料的護城河
π0.5(朝向 π1 的半步)是這一季開放權重的驚喜。它在 Open X-Embodiment 2.0 資料集(1.2M 軌跡、35 種機器人本體)上訓練,效能比 GR00T N2 小 6 倍卻能打平。重點:在具身策略上,資料多樣性已經贏過參數量。
對開發者的意義
- Sim-to-Real 在精細操作上正在收斂,但在運動控制上仍卡關。 跨新物體的抓取放置:可以。崎嶇地形行走:每平台仍要手調。
- 遙控示範資料是新的訓練語料。 ALOHA-2 套件($35K)已成實驗室標配。要訓自訂技能,預算每任務約 50 小時遙控時間。
- 推論延遲限制任務複雜度。 Jetson Thor 上 GR00T N2 跑 30 Hz 對操作夠用,但對反應式避障太慢。混合堆疊(快速底層 + 慢速 VLA)正在當道。
- 部署瓶頸現在是安全認證,不是能力。 上述四個平台今天都能做有用的事;卡關的是過 ISO 10218 + ISO/TS 15066,這才是擋住營收的東西。
Q3 值得關注
- 開放權重的 GR00T 版本(傳言中)
- π1 釋出,採用 action-chunking transformer 架構
- 第一個非 Tesla 內部工廠的 Optimus 公開客戶
- Boston Dynamics 電動 Atlas 商業計畫(液壓版 Atlas 已退役)