2026-05-02

机器人世界模型——为开发者解析 Cosmos、Genie 3、V-JEPA-2

NVIDIA Cosmos、Google Genie 3、Meta V-JEPA-2 各自押注不同的具身 AI 合成训练数据路径。本文说明三者实际适用情境，以及世界模型能否取代遥操作示范这个关键问题。

具身 AI 今天的瓶颈不是算力或模型容量，而是训练数据。一台遥操作示范装置每天约能采集 50 小时，标注则是隐性瓶颈。世界模型提供了一条出路：如果学到的模拟器够真实，机器人就能在里面跑数百万条轨迹。三家实验室在领跑这场赌注。

NVIDIA Cosmos——策略训练的主力

Cosmos 是一系列开放权重的扩散+自回归模型，能根据动作序列生成写实的机器人视角视频。关键规格是「接触密集任务的物理一致性」：抓取放置、有关节的物体、可变形物体。给它 1 秒种子视频加上动作计划，它能预测机器人接下来 5–10 秒会看到的第一视角画面。

优点：产生数百万条合成示范供 VLA 模型微调。缺点：训练分布外的场景（光线特殊的工厂、杂乱的家庭厨房）效果差。Figure 与 Boston Dynamics 在 2026 Q1 训练流程中已使用。

Genie 3 是三者中唯一能让你实时交互的：你提供动作，它生成下一帧。2026 年 3 月引发关注的能力是 1280×720 分辨率、24 fps，交互约 2 分钟内物体仍保持一致性。

对机器人而言，Genie 3 的价值在于 RL rollouts 跑在比手刻物理引擎更接近真实分布的学习模拟器上。代价：目前不暴露机器人策略可靠学习所需的接触力与动力学。适合高层导航策略，不适合操作任务。

V-JEPA-2 采取相反路径：不生成像素，而是学习场景如何演变的潜在表征。可以当作视频编码器，在不负担像素级生成成本的前提下给机器人一个有用的内部状态。论文宣称在视频理解与动作预测基准上达到 SOTA。

对开发者而言：V-JEPA-2 适合当作冻结的感知主干，再在上层训练策略。也是三者中推理成本最低的——Cosmos 与 Genie 3 需要多 GPU 推理；V-JEPA-2 单张 H100 即可。

2026 年 5 月诚实的回答：还不能，但差距每年缩小一倍。世界模型要取代真实数据采集，需要三件事：

这些问题解决前，实务答案是混合：用世界模型把遥操作数据增强 10×，但长尾仍要继续采集真实示范。