arXiv 2606.13672·2026-06-11 — 回閲覧

WEAVER：忠実性・長期間整合性・高速推論を同時に達成するロボット操作世界モデル（CMU）

Jain, Wu, Farebrother, Swamy, Bajcsy

WEAVERはロボット操作向けの学習済み世界モデルで、忠実性・一貫性・速度のトリレンマを解消する。高精度・長期間整合性・リアルタイム推論を単一アーキテクチャで実現し、最小限の実環境インタラクションでポリシー評価とテスト時プランニングを可能にする。

arxiv.org/abs/2606.13672 ↗

論文の内容

arXiv:2606.13672（cs.RO、2026年6月11日投稿）はカーネギーメロン大学ロボティクスグループ（Jain、Wu、Farebrother、Swamy、Bajcsy）から、WEAVER——ロボット操作タスク専用に設計された学習済み世界モデル——を提案する。論文の中心的な主張は、WEAVERがロボティクスにおける「世界モデルトリレンマ」を解消するというものだ。これは既存システムが忠実性（生成された軌跡が現実に一致する）、長期間整合性（モデルが多ステップにわたって整合性を保つ）、推論速度（モデルがリアルタイムプランニングに十分な速度で動作する）の間でトレードオフを強いられるという観察だ。

ロボット世界モデルに関する先行研究は、1つか2つの特性を最適化する代わりに3つ目を犠牲にしてきた。WEAVERは3つの要件を同時に満たす統合アーキテクチャとして提示される。

アーキテクチャ概要

WEAVERは階層的潜在空間設計を使用する：

コンパクトな状態表現 — 生のビデオピクセルを操作する（コスト大）のではなく、WEAVERはロボット関連の状態を物体の位置・接触状態・タスク関連ジオメトリを捉えるコンパクトな学習済み表現に符号化する。

マルチスケール時間アーキテクチャ — WEAVERは2つの時間処理層を使用する：短期動態（接触力、グリッパー状態、物体慣性）を追跡する高速更新層と、長期整合性（タスク構造、目標状態、遮蔽下での物体同一性）を維持する低速更新層だ。両層はクロスアテンションで情報を共有し、高速層が低速層のドリフトを補正し、その逆も可能だ。

忠実性アンカリング — ロールアウト中に定期的に、WEAVERは学習済みアライメントモジュールを使って、ロールアウトをリセットするのではなく、アンカーを潜在軌跡に投影して実ロボットからの観測状態に潜在予測をアンカーリングする。これによりシングルトラックロールアウトモデルを劣化させる緩やかなドリフトの蓄積を防ぐ。

評価

論文は標準的なロボット操作ベンチマーク（MetaWorldとRoboMicのバリアント、カスタム長期操作スイート）でWEAVERを評価する：

長期操作ベンチマークで最高水準 — WEAVERは競合モデルが整合性を失う10ステップ以上の操作シーケンスで先行世界モデルを上回る
テスト時プランニングに十分な推論速度 — 標準的なワークステーションGPUで10 Hz以上のモデル予測制御（MPC）ループを実行できる潜在空間ロールアウト速度
プランニングによるポリシー改善 — WEAVERロールアウトを使ってファインチューニングされたポリシーは行動クローニングベースラインを上回る改善を示し、WEAVERロールアウトが合成ポリシー訓練データとして十分信頼できることを実証

なぜ世界モデルが操作に重要か

ロボット操作は実世界データだけから学習することが困難だ。理由は：実世界トライアルが遅くハードウェアを消耗させる；失敗ケースが高価な操作セットアップに危険；そして堅牢なポリシーを学習するために必要なインタラクションの分布が広い。世界モデルは合成ポリシー訓練を可能にすることでこれを解決する——世界モデルで何百万もの想像されたロールアウトを生成し、合成データでポリシーを訓練し、最小限の実世界ファインチューニングでデプロイする。

このパイプラインのボトルネックは常に世界モデルの質だった：世界モデルが現実からずれると、合成訓練データがポリシーを汚染する。WEAVERの忠実性アンカリングと長期整合性の特性はドリフト問題に直接対処する。

実務者へのノート

ポリシークローニング、オフラインRL、世界モデルベースプランニングの選択を迫られているロボット操作システムを構築中の人へ：WEAVERは、先行モデルをMPCに非実用的にしていた速度-整合性のトレードオフを解決することで、世界モデルパスを意味のある選択肢にする。実用的なテストは、特定の操作ドメインでWEAVERの忠実性が保たれるかどうかだ。最初に実行すべきアブレーション：センサースタック（カメラレイテンシ、キャリブレーション誤差、物体遮蔽パターン）での忠実性アンカリングが軌跡の整合性を維持するか、それともプランニングを不安定にするアンカリングエラーを引き起こすか？それがWEAVERを本番操作システムに採用する前の重要な経験的問いだ。

見過ごされがちな視点

WEAVERの長期整合性改善には論文が強調しない含意がある：データ効率だ。世界モデルが50ステップの操作シーケンスにわたって忠実であり続ければ、有能なポリシーを訓練するために必要な実世界デモンストレーションははるかに少なくなる——世界モデルはより少ないアンカリングされた観察からより多様な想像された体験に外挿できる。操作における実世界データ収集のスケーリング則がこの分野を高コストにしている；世界モデルの忠実性のあらゆるアーキテクチャ改善は、必要な物理ロボットトライアル数の削減に直接変換される。WEAVERの貢献は「推論時のより良いプランニング」というより「ロボット工時データ収集予算を半分にする」かもしれない——このフレーミングは物理ハードウェアを操作する研究室にとってベンチマーク数字が示すより価値がある。