Builder Daily

2026-05-03

具身 AI 摘要 — 2026 Q2 人形机器人基础模型

2026 Q2 有四个人形机器人基础模型推出实机演示:NVIDIA GR00T N2、Tesla Optimus Gen 3、Figure 03、Physical Intelligence π0.5。Sim-to-Real 差距在缩小——但只缩在「有足够遥操作数据」的精细操作任务上。

人形机器人正在迎来自己的「ChatGPT 时刻」——只是更慢、更乱、被数据量限制。这一季真正落地的东西,以及它对开发者的意义:

四个值得关注的发表

1. NVIDIA GR00T N2 — 泛化型人形基础模型

GR00T N2 是一个预训练 Transformer,输入 RGB + 本体感觉 + 语言,输出任何人形平台的关节动作。头条数字是 5 种机器人本体上 70+ 任务 zero-shot,但真正实用的数字是 fine-tune 比例:每个新任务只要约 30 分钟的遥操作数据,相比从零训练要 8 小时。通过 Isaac Lab 与 Jetson Thor 开发套件提供。

2. Tesla Optimus Gen 3 — 垂直整合论述

Gen 3 从 57 kg 减重到 48 kg,手部增加到 22 DOF(Gen 2 是 11)。有趣的不是硬件——而是 Tesla 开始用驱动 FSD V14 的同一套 Dojo 训练视觉语言堆栈来训练 Optimus。他们赌的是「驾驶数据规模能复利迁移到操作策略」。怀疑论者指出「看路」和「拧螺丝」是完全不同的动作分布。

3. Figure 03 — 商业部署优先

Figure 03 牺牲 DOF 换可靠度:总共 28 DOF,但在 BMW Spartanburg 厂的固定零件上料任务上,10,000+ 次测试达到 95%+ 成功率。教训:2026 Q2 工厂采用「窄任务可靠度」胜过「泛化演示」。Figure 已宣布两家德国车厂的五位数机器人订单。

4. Physical Intelligence π0.5 — 数据的护城河

π0.5(朝向 π1 的半步)是这一季开放权重的惊喜。它在 Open X-Embodiment 2.0 数据集(1.2M 轨迹、35 种机器人本体)上训练,性能比 GR00T N2 小 6 倍却能打平。重点:在具身策略上,数据多样性已经赢过参数量

对开发者的意义

Q3 值得关注


Sources

请喝咖啡