2026-05-03

實體 AI 摘要 — 2026 Q2 人形機器人基礎模型

2026 Q2 有四個人形機器人基礎模型推出實機展示：NVIDIA GR00T N2、Tesla Optimus Gen 3、Figure 03、Physical Intelligence π0.5。Sim-to-Real 差距在縮小——但只縮在「有足夠遙控示範資料」的精細操作任務上。

人形機器人正在迎來自己的「ChatGPT 時刻」——只是更慢、更混亂、被資料量綁住。這一季真正落地的東西，以及它對開發者的意義：

四個值得關注的發表

1. NVIDIA GR00T N2 — 泛化型人形基礎模型

GR00T N2 是一個預訓練 Transformer，輸入 RGB + 本體感覺 + 語言，輸出任何人形平台的關節動作。頭條數字是 5 種機器人本體上 70+ 任務 zero-shot，但真正實用的數字是 fine-tune 比例：每個新任務只要約 30 分鐘的遙控資料，相比從零訓練要 8 小時。透過 Isaac Lab 與 Jetson Thor 開發套件提供。

2. Tesla Optimus Gen 3 — 垂直整合論述

Gen 3 從 57 kg 減重到 48 kg，手部增加到 22 DOF（Gen 2 是 11）。有趣的不是硬體——而是 Tesla 開始用驅動 FSD V14 的同一套 Dojo 訓練視覺語言堆疊來訓 Optimus。他們賭的是「駕駛資料規模能複利轉移到操作策略」。懷疑論者指出「看路」和「鎖螺絲」是完全不同的動作分佈。

3. Figure 03 — 商業部署先行

Figure 03 犧牲 DOF 換可靠度：總共 28 DOF，但在 BMW Spartanburg 廠的固定零件上料任務上，10,000+ 次測試達到 95%+ 成功率。教訓：2026 Q2 工廠採用「窄任務可靠度」勝過「泛化展示」。Figure 已宣布兩家德國車廠的五位數機器人訂單。

4. Physical Intelligence π0.5 — 資料的護城河

π0.5（朝向 π1 的半步）是這一季開放權重的驚喜。它在 Open X-Embodiment 2.0 資料集（1.2M 軌跡、35 種機器人本體）上訓練，效能比 GR00T N2 小 6 倍卻能打平。重點：在具身策略上，資料多樣性已經贏過參數量。

對開發者的意義

Sim-to-Real 在精細操作上正在收斂，但在運動控制上仍卡關。 跨新物體的抓取放置：可以。崎嶇地形行走：每平台仍要手調。
遙控示範資料是新的訓練語料。 ALOHA-2 套件（$35K）已成實驗室標配。要訓自訂技能，預算每任務約 50 小時遙控時間。
推論延遲限制任務複雜度。 Jetson Thor 上 GR00T N2 跑 30 Hz 對操作夠用，但對反應式避障太慢。混合堆疊（快速底層 + 慢速 VLA）正在當道。
部署瓶頸現在是安全認證，不是能力。 上述四個平台今天都能做有用的事；卡關的是過 ISO 10218 + ISO/TS 15066，這才是擋住營收的東西。

Q3 值得關注

開放權重的 GR00T 版本（傳言中）
π1 釋出，採用 action-chunking transformer 架構
第一個非 Tesla 內部工廠的 Optimus 公開客戶
Boston Dynamics 電動 Atlas 商業計畫（液壓版 Atlas 已退役）