2026-05-03

具身 AI 摘要 — 2026 Q2 人形机器人基础模型

2026 Q2 有四个人形机器人基础模型推出实机演示：NVIDIA GR00T N2、Tesla Optimus Gen 3、Figure 03、Physical Intelligence π0.5。Sim-to-Real 差距在缩小——但只缩在「有足够遥操作数据」的精细操作任务上。

人形机器人正在迎来自己的「ChatGPT 时刻」——只是更慢、更乱、被数据量限制。这一季真正落地的东西，以及它对开发者的意义：

四个值得关注的发表

1. NVIDIA GR00T N2 — 泛化型人形基础模型

GR00T N2 是一个预训练 Transformer，输入 RGB + 本体感觉 + 语言，输出任何人形平台的关节动作。头条数字是 5 种机器人本体上 70+ 任务 zero-shot，但真正实用的数字是 fine-tune 比例：每个新任务只要约 30 分钟的遥操作数据，相比从零训练要 8 小时。通过 Isaac Lab 与 Jetson Thor 开发套件提供。

2. Tesla Optimus Gen 3 — 垂直整合论述

Gen 3 从 57 kg 减重到 48 kg，手部增加到 22 DOF（Gen 2 是 11）。有趣的不是硬件——而是 Tesla 开始用驱动 FSD V14 的同一套 Dojo 训练视觉语言堆栈来训练 Optimus。他们赌的是「驾驶数据规模能复利迁移到操作策略」。怀疑论者指出「看路」和「拧螺丝」是完全不同的动作分布。

3. Figure 03 — 商业部署优先

Figure 03 牺牲 DOF 换可靠度：总共 28 DOF，但在 BMW Spartanburg 厂的固定零件上料任务上，10,000+ 次测试达到 95%+ 成功率。教训：2026 Q2 工厂采用「窄任务可靠度」胜过「泛化演示」。Figure 已宣布两家德国车厂的五位数机器人订单。

4. Physical Intelligence π0.5 — 数据的护城河

π0.5（朝向 π1 的半步）是这一季开放权重的惊喜。它在 Open X-Embodiment 2.0 数据集（1.2M 轨迹、35 种机器人本体）上训练，性能比 GR00T N2 小 6 倍却能打平。重点：在具身策略上，数据多样性已经赢过参数量。

对开发者的意义

Sim-to-Real 在精细操作上正在收敛，但在运动控制上仍卡关。 跨新物体的抓取放置：可以。崎岖地形行走：每平台仍要手调。
遥操作数据是新的训练语料。 ALOHA-2 套件（$35K）已成实验室标配。要训自定义技能，预算每任务约 50 小时遥操作时间。
推理延迟限制任务复杂度。 Jetson Thor 上 GR00T N2 跑 30 Hz 对操作够用，但对反应式避障太慢。混合堆栈（快速底层 + 慢速 VLA）正在当道。
部署瓶颈现在是安全认证，不是能力。 上述四个平台今天都能做有用的事；卡关的是过 ISO 10218 + ISO/TS 15066，这才是挡住营收的东西。

Q3 值得关注

开放权重的 GR00T 版本（传言中）
π1 发布，采用 action-chunking transformer 架构
第一个非 Tesla 内部工厂的 Optimus 公开客户
Boston Dynamics 电动 Atlas 商业计划（液压版 Atlas 已退役）