2026-05-03
具身 AI 摘要 — 2026 Q2 人形机器人基础模型
2026 Q2 有四个人形机器人基础模型推出实机演示:NVIDIA GR00T N2、Tesla Optimus Gen 3、Figure 03、Physical Intelligence π0.5。Sim-to-Real 差距在缩小——但只缩在「有足够遥操作数据」的精细操作任务上。
人形机器人正在迎来自己的「ChatGPT 时刻」——只是更慢、更乱、被数据量限制。这一季真正落地的东西,以及它对开发者的意义:
四个值得关注的发表
1. NVIDIA GR00T N2 — 泛化型人形基础模型
GR00T N2 是一个预训练 Transformer,输入 RGB + 本体感觉 + 语言,输出任何人形平台的关节动作。头条数字是 5 种机器人本体上 70+ 任务 zero-shot,但真正实用的数字是 fine-tune 比例:每个新任务只要约 30 分钟的遥操作数据,相比从零训练要 8 小时。通过 Isaac Lab 与 Jetson Thor 开发套件提供。
2. Tesla Optimus Gen 3 — 垂直整合论述
Gen 3 从 57 kg 减重到 48 kg,手部增加到 22 DOF(Gen 2 是 11)。有趣的不是硬件——而是 Tesla 开始用驱动 FSD V14 的同一套 Dojo 训练视觉语言堆栈来训练 Optimus。他们赌的是「驾驶数据规模能复利迁移到操作策略」。怀疑论者指出「看路」和「拧螺丝」是完全不同的动作分布。
3. Figure 03 — 商业部署优先
Figure 03 牺牲 DOF 换可靠度:总共 28 DOF,但在 BMW Spartanburg 厂的固定零件上料任务上,10,000+ 次测试达到 95%+ 成功率。教训:2026 Q2 工厂采用「窄任务可靠度」胜过「泛化演示」。Figure 已宣布两家德国车厂的五位数机器人订单。
4. Physical Intelligence π0.5 — 数据的护城河
π0.5(朝向 π1 的半步)是这一季开放权重的惊喜。它在 Open X-Embodiment 2.0 数据集(1.2M 轨迹、35 种机器人本体)上训练,性能比 GR00T N2 小 6 倍却能打平。重点:在具身策略上,数据多样性已经赢过参数量。
对开发者的意义
- Sim-to-Real 在精细操作上正在收敛,但在运动控制上仍卡关。 跨新物体的抓取放置:可以。崎岖地形行走:每平台仍要手调。
- 遥操作数据是新的训练语料。 ALOHA-2 套件($35K)已成实验室标配。要训自定义技能,预算每任务约 50 小时遥操作时间。
- 推理延迟限制任务复杂度。 Jetson Thor 上 GR00T N2 跑 30 Hz 对操作够用,但对反应式避障太慢。混合堆栈(快速底层 + 慢速 VLA)正在当道。
- 部署瓶颈现在是安全认证,不是能力。 上述四个平台今天都能做有用的事;卡关的是过 ISO 10218 + ISO/TS 15066,这才是挡住营收的东西。
Q3 值得关注
- 开放权重的 GR00T 版本(传言中)
- π1 发布,采用 action-chunking transformer 架构
- 第一个非 Tesla 内部工厂的 Optimus 公开客户
- Boston Dynamics 电动 Atlas 商业计划(液压版 Atlas 已退役)