arXiv 2606.13672·2026-06-11 — 次浏览

WEAVER：同时实现高保真度、长时域一致性与快速推理的机器人操作世界模型（CMU）

Jain, Wu, Farebrother, Swamy, Bajcsy

WEAVER（CMU）是一种用于机器人操作的习得世界模型，解决了保真度-一致性-速度三难困境：在单一架构中实现高精度、长时域连贯性与实时推理，以最少的真实世界交互实现策略评估与测试时规划。

论文做了什么

arXiv:2606.13672（cs.RO，2026 年 6 月 11 日提交）来自卡内基梅隆大学机器人学组（Jain、Wu、Farebrother、Swamy、Bajcsy），提出了 WEAVER——一种专为机器人操作任务设计的习得世界模型。论文的核心主张是 WEAVER 解决了作者所称的机器人领域”世界模型三难困境”：现有系统被迫在保真度（生成轨迹与现实吻合）、长时域一致性（模型在多步骤中保持连贯）和推理速度（模型运行速度足以支持实时规划）之间做出取舍。

此前的机器人世界模型工作往往以牺牲第三个属性为代价优化前两个。视频预测模型（如 RSSM 变体）提供长时域展开但会在延伸序列中与现实偏离。基于扩散的模型可以实现高每帧保真度但太慢以至无法进行测试时规划。较轻量的循环模型速度快但长时域不一致。WEAVER 被呈现为同时满足三个需求的统一架构。

架构概述

WEAVER 使用分层潜在空间设计：

紧凑状态表示 — 不在原始视频像素上操作（成本高），WEAVER 将机器人相关状态编码为紧凑的习得表示，捕获物体位置、接触状态和任务相关几何形状。这种编码实现了快速的潜在空间展开，无需逐步解码像素。

多尺度时间架构 — WEAVER 使用两个时间处理层：跟踪短时域动态（接触力、夹爪状态、物体惯性）的快速更新层，以及维护长时域一致性（任务结构、目标状态、物体在遮挡下的身份）的慢速更新层。两层通过交叉注意力共享信息，允许快速层纠正慢速层的漂移，反之亦然。

保真度锚定 — 在展开过程中，WEAVER 定期将潜在预测锚定到来自真实机器人的观察状态，使用习得对齐模块将锚点投影到潜在轨迹中，而不是重置展开。这防止了使单轨展开模型退化的缓慢漂移积累。

评估

论文在标准机器人操作基准（MetaWorld、RoboMimic 变体，以及自定义长时域操作套件）上评估 WEAVER：

长时域操作基准达到业界领先 — WEAVER 在 10 步以上操作序列上优于此前世界模型，竞争模型在此处一致性退化
推理速度足以支持测试时规划 — 潜在空间展开的速度足以在标准工作站 GPU 上以 10 Hz 或更高频率运行模型预测控制（MPC）循环
规划带来策略改进 — 使用 WEAVER 展开微调的策略相比行为克隆基线显示出可测量的改进，表明 WEAVER 展开足够可靠，可用作合成策略训练数据

为何世界模型对操作重要

机器人操作很难仅从真实世界数据中学习，原因是：真实世界试验缓慢且磨损硬件；失败案例对昂贵的操作设置危险；学习鲁棒策略所需的交互分布广泛。世界模型通过实现合成策略训练解决了这个问题——在世界模型中生成数百万次想象的展开，在合成数据上训练策略，然后以最少的真实世界微调进行部署。

此流程的瓶颈一直是世界模型质量：如果世界模型与现实偏离，合成训练数据就会毒化策略。WEAVER 的保真度锚定和长时域一致性属性直接解决了漂移问题。

从业者视角

对机器人系统构建者： 以 10 Hz 运行的世界模型实现了闭环模型预测控制——机器人用 WEAVER 规划轨迹，开始执行，获取新观察，重新规划，如此迭代。这在质量上优于来自较慢扩散模型的开环计划。部署的关键问题是当真实观察有噪声或延迟时保真度锚定步骤会发生什么——锚定模块对传感器噪声的鲁棒性是关键的未解问题。

对机器人研究者： WEAVER 的分层时间设计是一个具体的架构模板，用于在规划时间尺度（秒到分钟）而不仅仅是视频时间尺度（帧）上工作的世界模型。快速层和慢速层之间的交叉注意力是值得复制的关键归纳偏置。

鲜少被讨论的角度

WEAVER 的长时域一致性改进有一个论文未强调的含义：数据效率。如果世界模型在 50 步操作序列中保持忠实，你就需要更少的真实世界演示来训练有能力的策略——世界模型可以从更少的锚定观察中外推到更多样的想象体验。操作中真实世界数据收集的规模律使这个领域昂贵；世界模型保真度的任何架构改进都直接转化为所需物理机器人试验次数的减少。WEAVER 的贡献可能与其说是”推理时更好的规划”，不如说是”将你的机器人工时数据收集预算减半”——这种框架对于操作物理硬件的实验室而言，比基准数字所显示的更有价值。