arXiv 2606.13672·2026-06-11 — 次瀏覽

WEAVER：同時達成高保真度、長時域一致性與快速推理的機器人操作世界模型（CMU）

Jain, Wu, Farebrother, Swamy, Bajcsy

WEAVER（CMU）是一種用於機器人操作的習得世界模型，解決了保真度-一致性-速度三難困境：在單一架構中實現高精度、長時域連貫性與即時推理，以最少的真實世界互動實現策略評估與測試時規劃。

論文做了什麼

arXiv:2606.13672（cs.RO，2026 年 6 月 11 日提交）來自卡內基梅隆大學機器人學組（Jain、Wu、Farebrother、Swamy、Bajcsy），提出了 WEAVER——一種專為機器人操作任務設計的習得世界模型。論文的核心主張是 WEAVER 解決了作者所稱的機器人領域「世界模型三難困境」：現有系統被迫在保真度（生成軌跡與現實吻合）、長時域一致性（模型在多步驟中保持連貫）和推理速度（模型運行速度足以支持即時規劃）之間做出取捨。

此前的機器人世界模型工作往往以犧牲第三個屬性為代價優化前兩個。視頻預測模型（如 RSSM 變體）提供長時域展開但會在延伸序列中與現實偏離。基於擴散的模型可以實現高每幀保真度但太慢以至無法進行測試時規劃。較輕量的循環模型速度快但長時域不一致。WEAVER 被呈現為同時滿足三個需求的統一架構。

架構概述

WEAVER 使用分層潛在空間設計：

緊湊狀態表示 — 不在原始視頻像素上操作（成本高），WEAVER 將機器人相關狀態編碼為緊湊的習得表示，捕獲物體位置、接觸狀態和任務相關幾何形狀。這種編碼實現了快速的潛在空間展開，無需逐步解碼像素。

多尺度時間架構 — WEAVER 使用兩個時間處理層：跟蹤短時域動態（接觸力、夾爪狀態、物體慣性）的快速更新層，以及維護長時域一致性（任務結構、目標狀態、物體在遮擋下的身份）的慢速更新層。兩層通過交叉注意力共享信息，允許快速層糾正慢速層的漂移，反之亦然。

保真度錨定 — 在展開過程中，WEAVER 定期將潛在預測錨定到來自真實機器人的觀察狀態，使用習得對齊模塊將錨點投影到潛在軌跡中，而不是重置展開。這防止了使單軌展開模型退化的緩慢漂移積累。

評估

論文在標準機器人操作基準（MetaWorld、RoboMimic 變體，以及自定義長時域操作套件）上評估 WEAVER：

長時域操作基準達到業界領先 — WEAVER 在 10 步以上操作序列上優於先前世界模型，競爭模型在此處一致性退化
推理速度足以支持測試時規劃 — 潛在空間展開的速度足以在標準工作站 GPU 上以 10 Hz 或更高頻率運行模型預測控制（MPC）循環
規劃帶來策略改進 — 使用 WEAVER 展開微調的策略相比行為克隆基線顯示出可測量的改進，表明 WEAVER 展開足夠可靠，可用作合成策略訓練數據

為何世界模型對操作重要

機器人操作很難僅從真實世界數據中學習，原因是：真實世界試驗緩慢且磨損硬件；失敗案例對昂貴的操作設置危險；學習穩健策略所需的交互分佈廣泛。世界模型通過實現合成策略訓練解決了這個問題——在世界模型中生成數百萬次想象的展開，在合成數據上訓練策略，然後以最少的真實世界微調進行部署。

此流程的瓶頸一直是世界模型質量：如果世界模型與現實偏離，合成訓練數據就會毒化策略。WEAVER 的保真度錨定和長時域一致性屬性直接解決了漂移問題。

實務觀察

對機器人系統構建者： 以 10 Hz 運行的世界模型實現了閉環模型預測控制——機器人用 WEAVER 規劃軌跡，開始執行，獲取新觀察，重新規劃，如此迭代。這在質量上優於來自較慢擴散模型的開環計划。部署的關鍵問題是當真實觀察有噪聲或延遲時保真度錨定步驟會發生什麼——錨定模塊對傳感器噪聲的魯棒性是關鍵的未解問題。

對機器人研究者： WEAVER 的分層時間設計是一個具體的架構模板，用於在規劃時間尺度（秒到分鐘）而不僅僅是視頻時間尺度（幀）上工作的世界模型。快速層和慢速層之間的交叉注意力是值得複製的關鍵歸納偏置。

鮮少被討論的角度

WEAVER 的長時域一致性改進有一個論文未強調的含義：數據效率。如果世界模型在 50 步操作序列中保持忠實，你就需要更少的真實世界演示來訓練有能力的策略——世界模型可以從更少的錨定觀察中外推到更多樣的想象體驗。操作中真實世界數據收集的規模律使這個領域昂貴；世界模型保真度的任何架構改進都直接轉化為所需物理機器人試驗次數的減少。WEAVER 的貢獻可能與其說是「推理時更好的規劃」，不如說是「將你的機器人工時數據收集預算減半」——這種框架對於操作物理硬件的實驗室而言，比基準數字所顯示的更有價值。