arXiv 2605.06285·2026-05-29 — 回閲覧

LatentRAG、agentic RAG の推論を潜在空間へ移し推論レイテンシを約90%削減

Yijia Zheng, Marcel Worring · University of Amsterdam

arXiv の新論文 LatentRAG は、agentic RAG の多段推論とクエリ生成を、トークン単位のテキストから連続的な潜在空間へ移し、明示的エージェントと同等の精度を保ちつつ推論レイテンシを約90%削減する。

LatentRAG: Latent Reasoning and Retrieval for Efficient Agentic RAG（arXiv:2605.06285）は、University of Amsterdam の Yijia Zheng と Marcel Worring による論文で、2026年5月7日に arXiv へ提出された。狙うのは、agentic な検索拡張生成（RAG）の最も痛いコスト、すなわち速度である。

agentic RAG の問題

agentic RAG システムが強力なのは、一度検索して答えるだけでないからだ。自律的に検索クエリを発行し、返ってきた内容を読み、足りない点について推論し、複数のステップを連鎖させる —— 十分な情報が揃うまで追加のサブクエリを発行し続ける。この自律性こそ、難しいマルチホップ質問で高精度を保てる理由である。

しかし、まさにそれが遅さの原因でもある。あらゆる思考、あらゆるサブクエリが、自然言語として一度に1トークンずつ生成される。声に出して考え、複数のサブクエリを書く多段エージェントは、各ステップで完全な自己回帰デコードのコストを払う。チャット、検索、コパイロットといった対話的な本番用途では、このレイテンシのせいで多段検索エージェントはほぼ採用できないものとなってきた。

LatentRAG が変えること

LatentRAG の手は、エージェントの推論をそもそもテキストへ直列化しないことだ。長い自然言語の思考やサブクエリをトークン単位で生成する代わりに、モデルの隠れ状態から思考とサブクエリの 潜在トークン を、1回の順伝播で直接生成する。推論も検索も、離散的な言語ではなく 連続的な潜在空間 に留まる。

agentic RAG の高コスト部分が思考とサブクエリのトークン単位生成だったため、その作業を潜在空間で —— 多数のデコードステップではなく1回の順伝播で —— 行うところに高速化が生まれる。

読めるように保つ

潜在のみのエージェントはブラックボックスになる。LatentRAG は 並列の潜在デコードステップ を追加し、潜在表現を自然言語へ戻すことで、推論を透明で検査可能なまま保つ。このデコードは潜在計算をせき止めるのではなく並列に走るため、透明性が、取り除こうとしていたレイテンシを再び招くことはない。

結果

7つのベンチマークデータセット にわたり、著者らは明示的 agentic RAG と同等の精度を保ちつつ、推論レイテンシを 約90% 削減したと報告している。これは、伝統的な単段 RAG との速度差をほぼ埋める —— 単段 RAG が速いのは、検索1回・生成1回しかしないからだ。結果が確かなら、ほぼ単段の速度で多段 agentic の精度が得られることになる。

なぜ重要か

多くの agentic RAG 効率研究が攻めるのは操作の「回数」だ。検索を減らす、推論ステップを減らす、より賢く止める。LatentRAG が攻めるのは 各ステップのコストそのもの —— エージェントの思考を一切テキストにしないことによってだ。これは別の最適化軸であり、一般化すれば、多段検索エージェントを対話的展開には遅すぎるままにしてきた「精度対レイテンシ」のトレードオフを組み替えるものとなる。

実務メモ

agentic RAG を運用・評価するチームへ：

agentic の精度には agentic のレイテンシが必須だと思い込まないこと。 レイテンシ税は、チームが単段 RAG へ戻る標準的な理由だった。LatentRAG の主張は、その税は テキスト直列化 の性質であって、多段推論の性質ではない、というものだ。速度だけを理由に agentic RAG を退けていたなら、その計算は変わりつつあるかもしれない。
推論が「存在するか」だけでなく「どこに在るか」を見ること。 自然言語の思考ログは構造上、監査可能だ。事後にデコードされた潜在の思考は再構成にすぎない。デコードされたテキストは、保証された逐語記録ではなく説明として扱うこと。
自分の検索コーパスでベンチマークすること。 7つの公開データセットは強いシグナルだが、ベンチマーク的なマルチホップ質問で訓練された潜在推論は、あなたの領域のクエリ分布では異なる挙動をしうる。レイテンシの利得は再現が容易だが、精度の同等性こそ検証すべきものだ。

見落とされがちな論点：推論を潜在空間へ移すことは、監査可能性を速度と引き換えにしており、その取引が隠れるのが後付けのデコーダだ。 エージェントがテキストで推論するなら、ログ「そのもの」が推論であり、検索し、ガードレールをかけ、再生できる。連続した隠れ状態で推論し、別のデコーダが後から語るなら、記録されるのは語りであって計算ではない。その自然言語デコードが潜在ステップの実際の挙動を忠実に反映している保証はない。検索エージェントを統治・監査・レッドチームせねばならない者にとって —— とりわけ規制領域では —— 推論をひそかに不透明な状態へ移す90%のレイテンシ削減は、ただの得ではない。それは新たな面、すなわち説明と挙動が乖離しうる場所なのだ。