Skip to content
AI-Daily-Builder

arXiv 2605.06285·2026-05-29 回閲覧

LatentRAG、agentic RAG の推論を潜在空間へ移し推論レイテンシを約90%削減

Yijia Zheng, Marcel Worring · University of Amsterdam

arXiv の新論文 LatentRAG は、agentic RAG の多段推論とクエリ生成を、トークン単位のテキストから連続的な潜在空間へ移し、明示的エージェントと同等の精度を保ちつつ推論レイテンシを約90%削減する。

arxiv.org/abs/2605.06285 ↗


LatentRAG: Latent Reasoning and Retrieval for Efficient Agentic RAG(arXiv:2605.06285)は、University of Amsterdam の Yijia Zheng と Marcel Worring による論文で、2026年5月7日に arXiv へ提出された。狙うのは、agentic な検索拡張生成(RAG)の最も痛いコスト、すなわち速度である。

agentic RAG の問題

agentic RAG システムが強力なのは、一度検索して答えるだけでないからだ。自律的に検索クエリを発行し、返ってきた内容を読み、足りない点について推論し、複数のステップを連鎖させる —— 十分な情報が揃うまで追加のサブクエリを発行し続ける。この自律性こそ、難しいマルチホップ質問で高精度を保てる理由である。

しかし、まさにそれが遅さの原因でもある。あらゆる思考、あらゆるサブクエリが、自然言語として一度に1トークンずつ生成される。声に出して考え、複数のサブクエリを書く多段エージェントは、各ステップで完全な自己回帰デコードのコストを払う。チャット、検索、コパイロットといった対話的な本番用途では、このレイテンシのせいで多段検索エージェントはほぼ採用できないものとなってきた。

LatentRAG が変えること

LatentRAG の手は、エージェントの推論をそもそもテキストへ直列化しないことだ。長い自然言語の思考やサブクエリをトークン単位で生成する代わりに、モデルの隠れ状態から思考とサブクエリの 潜在トークン を、1回の順伝播で直接生成する。推論も検索も、離散的な言語ではなく 連続的な潜在空間 に留まる。

agentic RAG の高コスト部分が思考とサブクエリのトークン単位生成だったため、その作業を潜在空間で —— 多数のデコードステップではなく1回の順伝播で —— 行うところに高速化が生まれる。

読めるように保つ

潜在のみのエージェントはブラックボックスになる。LatentRAG は 並列の潜在デコードステップ を追加し、潜在表現を自然言語へ戻すことで、推論を透明で検査可能なまま保つ。このデコードは潜在計算をせき止めるのではなく並列に走るため、透明性が、取り除こうとしていたレイテンシを再び招くことはない。

結果

7つのベンチマークデータセット にわたり、著者らは明示的 agentic RAG と同等の精度を保ちつつ、推論レイテンシを 約90% 削減したと報告している。これは、伝統的な単段 RAG との速度差をほぼ埋める —— 単段 RAG が速いのは、検索1回・生成1回しかしないからだ。結果が確かなら、ほぼ単段の速度で多段 agentic の精度が得られることになる。

なぜ重要か

多くの agentic RAG 効率研究が攻めるのは操作の「回数」だ。検索を減らす、推論ステップを減らす、より賢く止める。LatentRAG が攻めるのは 各ステップのコストそのもの —— エージェントの思考を一切テキストにしないことによってだ。これは別の最適化軸であり、一般化すれば、多段検索エージェントを対話的展開には遅すぎるままにしてきた「精度 対 レイテンシ」のトレードオフを組み替えるものとなる。

実務メモ

agentic RAG を運用・評価するチームへ:

見落とされがちな論点:推論を潜在空間へ移すことは、監査可能性を速度と引き換えにしており、その取引が隠れるのが後付けのデコーダだ。 エージェントがテキストで推論するなら、ログ「そのもの」が推論であり、検索し、ガードレールをかけ、再生できる。連続した隠れ状態で推論し、別のデコーダが後から語るなら、記録されるのは語りであって計算ではない。その自然言語デコードが潜在ステップの実際の挙動を忠実に反映している保証はない。検索エージェントを統治・監査・レッドチームせねばならない者にとって —— とりわけ規制領域では —— 推論をひそかに不透明な状態へ移す90%のレイテンシ削減は、ただの得ではない。それは新たな面、すなわち説明と挙動が乖離しうる場所なのだ。

チップ