arXiv 2605.06285·2026-05-29 — 次瀏覽

LatentRAG 把 agentic RAG 推理移進 latent space，推理延遲砍掉約 90%

Yijia Zheng, Marcel Worring · University of Amsterdam

arXiv 新論文 LatentRAG 把 agentic RAG 的多步推理與查詢生成，從逐字 token 的文字搬進連續的 latent space，準確度追平顯式代理，同時把推理延遲砍掉約 90%。

LatentRAG: Latent Reasoning and Retrieval for Efficient Agentic RAG（arXiv:2605.06285），由 University of Amsterdam 的 Yijia Zheng 與 Marcel Worring 撰寫，於 2026 年 5 月 7 日提交至 arXiv。它瞄準 agentic 檢索增強生成（RAG）最痛的一個成本：速度。

agentic RAG 的問題

agentic RAG 系統之所以強大，是因為它不是檢索一次就回答。它會自主發出搜尋查詢、讀回傳的內容、針對缺口推理，並串接多個步驟 —— 不斷發出後續子查詢，直到資訊足夠才回答。正是這種自主性，讓它在困難的多跳問題上能保持準確。

但也正是這一點讓它變慢。每個想法、每個子查詢都是以自然語言、一次一個 token 生成的。一個會「想出聲」又寫好幾個子查詢的多步代理，在每一步都付出完整的自迴歸解碼成本。對於互動式正式環境 —— 聊天、搜尋、copilot —— 這種延遲讓多步檢索代理基本上難以採用。

LatentRAG 改了什麼

LatentRAG 的做法是乾脆不再把代理的推理序列化成文字。它不再逐字生成冗長的自然語言想法與子查詢，而是在一次前向傳遞中，直接從模型的隱藏狀態產生想法與子查詢的 latent token。推理與檢索都留在連續的 latent space，而不是離散的語言。

由於 agentic RAG 昂貴的部分正是逐字生成想法與子查詢，把這份工作放進 latent space 完成 —— 用一次前向傳遞取代多次解碼步驟 —— 加速就來自這裡。

保持可讀

純 latent 的代理會是個黑盒。LatentRAG 加上一個平行的 latent 解碼步驟，把 latent 表徵轉回自然語言，讓推理仍然透明、可檢視。這個解碼與 latent 計算平行運行，而非卡在它前面，所以透明度不會把它想去除的延遲又帶回來。

結果

橫跨七個基準資料集，作者回報準確度與顯式 agentic RAG 相當，同時把推理延遲降低約 90%。這大致追平了與傳統單步 RAG 的速度差距 —— 單步 RAG 之所以快，正是因為它只做一次檢索、一次生成。若結果成立，你將以接近單步的速度，拿到多步 agentic 的準確度。

為什麼重要

多數 agentic RAG 效率研究攻擊的是操作的「數量」：更少搜尋、更少推理步、更聰明的停止。LatentRAG 攻擊的卻是每一步的成本本身 —— 靠的是根本不把代理的想法變成文字。這是一條不同的優化軸線，而且若能推廣，正是它重構了那個一直讓多步檢索代理太慢、無法互動部署的「準確度 vs 延遲」權衡。

實務筆記

給正在運行或評估 agentic RAG 的團隊：

別假設 agentic 的準確度必然伴隨 agentic 的延遲。 延遲稅一直是團隊退回單步 RAG 的標準理由。LatentRAG 的主張是：這份稅是文字序列化的性質，不是多步推理的性質。若你純粹因為速度而否決 agentic RAG，這筆帳可能正在改變。
盯住推理「住在哪裡」，而不只是它存不存在。 自然語言的想法日誌天生可稽核。事後解碼出來的 latent 想法是一種重建。把解碼文字當成解釋，而非保證屬實的逐字稿。
用你自己的檢索語料做基準測試。 七個公開資料集是強訊號，但在基準式多跳問題上訓練的 latent 推理，在你領域的查詢分布上可能表現不同。延遲的提升容易重現；準確度持平才是要驗證的東西。

少有人談的角度：把推理搬進 latent space，是用可稽核性換速度，而那個外掛解碼器正是這筆交易藏身之處。 當代理用文字推理，你的日誌「就是」推理 —— 你能搜尋它、為它設護欄、重播它。當它在連續隱藏狀態裡推理、再由一個獨立解碼器事後旁白，你記下的是旁白，不是計算。沒有任何保證那段自然語言解碼忠實反映了 latent 步驟實際做了什麼。對任何必須治理、稽核或紅隊測試檢索代理的人 —— 尤其在受監管領域 —— 一個悄悄把推理搬進不透明狀態的 90% 延遲削減，並非白賺。它是一個新的破口：解釋與行為可能在此分歧。