2026-05-02
机器人世界模型——为开发者解析 Cosmos、Genie 3、V-JEPA-2
NVIDIA Cosmos、Google Genie 3、Meta V-JEPA-2 各自押注不同的具身 AI 合成训练数据路径。本文说明三者实际适用情境,以及世界模型能否取代遥操作示范这个关键问题。
具身 AI 今天的瓶颈不是算力或模型容量,而是训练数据。一台遥操作示范装置每天约能采集 50 小时,标注则是隐性瓶颈。世界模型提供了一条出路:如果学到的模拟器够真实,机器人就能在里面跑数百万条轨迹。三家实验室在领跑这场赌注。
NVIDIA Cosmos——策略训练的主力
Cosmos 是一系列开放权重的扩散+自回归模型,能根据动作序列生成写实的机器人视角视频。关键规格是「接触密集任务的物理一致性」:抓取放置、有关节的物体、可变形物体。给它 1 秒种子视频加上动作计划,它能预测机器人接下来 5–10 秒会看到的第一视角画面。
优点:产生数百万条合成示范供 VLA 模型微调。缺点:训练分布外的场景(光线特殊的工厂、杂乱的家庭厨房)效果差。Figure 与 Boston Dynamics 在 2026 Q1 训练流程中已使用。
Google DeepMind Genie 3——交互式模拟
Genie 3 是三者中唯一能让你实时交互的:你提供动作,它生成下一帧。2026 年 3 月引发关注的能力是 1280×720 分辨率、24 fps,交互约 2 分钟内物体仍保持一致性。
对机器人而言,Genie 3 的价值在于 RL rollouts 跑在比手刻物理引擎更接近真实分布的学习模拟器上。代价:目前不暴露机器人策略可靠学习所需的接触力与动力学。适合高层导航策略,不适合操作任务。
Meta V-JEPA-2——表征而非生成
V-JEPA-2 采取相反路径:不生成像素,而是学习场景如何演变的潜在表征。可以当作视频编码器,在不负担像素级生成成本的前提下给机器人一个有用的内部状态。论文宣称在视频理解与动作预测基准上达到 SOTA。
对开发者而言:V-JEPA-2 适合当作冻结的感知主干,再在上层训练策略。也是三者中推理成本最低的——Cosmos 与 Genie 3 需要多 GPU 推理;V-JEPA-2 单张 H100 即可。
关键问题——世界模型能否取代遥操作?
2026 年 5 月诚实的回答:还不能,但差距每年缩小一倍。世界模型要取代真实数据采集,需要三件事:
- 接触力的逼真度。Cosmos 最接近,但仍会幻觉出实机不会发生的失败模式。
- 长时序一致性。Genie 3 约 2 分钟后开始飘;真实任务动辄 5–15 分钟。
- 跨本体泛化。在人形视频上训练的模型还无法良好迁移到轮式或单臂平台。
这些问题解决前,实务答案是混合:用世界模型把遥操作数据增强 10×,但长尾仍要继续采集真实示范。
实战笔记
- 从零训 VLA:Cosmos rollouts 配真实遥操作以 5:1 合成对真实比例。已发表的消融实验显示超过 5:1 后边际效益递减。
- 微调既有 VLA:直接跳过世界模型数据,专注于目标环境的真实遥操作。世界模型数据会稀释微调效果。
- 推理成本要算:Cosmos 在单张 H100 上生成 24 fps 视频约 $0.02/秒。一小时合成数据集约 $72。
- V-JEPA-2 当行为克隆的感知编码器目前被低估——很多团队还默认用 CLIP 或 DINOv2,这是个快速胜利点。