Skip to content
AI-Daily-Builder

arXiv 2605.06285·2026-05-29 次瀏覽

LatentRAG 把 agentic RAG 推理移進 latent space,推理延遲砍掉約 90%

Yijia Zheng, Marcel Worring · University of Amsterdam

arXiv 新論文 LatentRAG 把 agentic RAG 的多步推理與查詢生成,從逐字 token 的文字搬進連續的 latent space,準確度追平顯式代理,同時把推理延遲砍掉約 90%。

arxiv.org/abs/2605.06285 ↗


LatentRAG: Latent Reasoning and Retrieval for Efficient Agentic RAG(arXiv:2605.06285),由 University of Amsterdam 的 Yijia Zheng 與 Marcel Worring 撰寫,於 2026 年 5 月 7 日提交至 arXiv。它瞄準 agentic 檢索增強生成(RAG)最痛的一個成本:速度。

agentic RAG 的問題

agentic RAG 系統之所以強大,是因為它不是檢索一次就回答。它會自主發出搜尋查詢、讀回傳的內容、針對缺口推理,並串接多個步驟 —— 不斷發出後續子查詢,直到資訊足夠才回答。正是這種自主性,讓它在困難的多跳問題上能保持準確。

但也正是這一點讓它變慢。每個想法、每個子查詢都是以自然語言、一次一個 token 生成的。一個會「想出聲」又寫好幾個子查詢的多步代理,在每一步都付出完整的自迴歸解碼成本。對於互動式正式環境 —— 聊天、搜尋、copilot —— 這種延遲讓多步檢索代理基本上難以採用。

LatentRAG 改了什麼

LatentRAG 的做法是乾脆不再把代理的推理序列化成文字。它不再逐字生成冗長的自然語言想法與子查詢,而是在一次前向傳遞中,直接從模型的隱藏狀態產生想法與子查詢的 latent token。推理與檢索都留在連續的 latent space,而不是離散的語言。

由於 agentic RAG 昂貴的部分正是逐字生成想法與子查詢,把這份工作放進 latent space 完成 —— 用一次前向傳遞取代多次解碼步驟 —— 加速就來自這裡。

保持可讀

純 latent 的代理會是個黑盒。LatentRAG 加上一個平行的 latent 解碼步驟,把 latent 表徵轉回自然語言,讓推理仍然透明、可檢視。這個解碼與 latent 計算平行運行,而非卡在它前面,所以透明度不會把它想去除的延遲又帶回來。

結果

橫跨七個基準資料集,作者回報準確度與顯式 agentic RAG 相當,同時把推理延遲降低約 90%。這大致追平了與傳統單步 RAG 的速度差距 —— 單步 RAG 之所以快,正是因為它只做一次檢索、一次生成。若結果成立,你將以接近單步的速度,拿到多步 agentic 的準確度。

為什麼重要

多數 agentic RAG 效率研究攻擊的是操作的「數量」:更少搜尋、更少推理步、更聰明的停止。LatentRAG 攻擊的卻是每一步的成本本身 —— 靠的是根本不把代理的想法變成文字。這是一條不同的優化軸線,而且若能推廣,正是它重構了那個一直讓多步檢索代理太慢、無法互動部署的「準確度 vs 延遲」權衡。

實務筆記

給正在運行或評估 agentic RAG 的團隊:

少有人談的角度:把推理搬進 latent space,是用可稽核性換速度,而那個外掛解碼器正是這筆交易藏身之處。 當代理用文字推理,你的日誌「就是」推理 —— 你能搜尋它、為它設護欄、重播它。當它在連續隱藏狀態裡推理、再由一個獨立解碼器事後旁白,你記下的是旁白,不是計算。沒有任何保證那段自然語言解碼忠實反映了 latent 步驟實際做了什麼。對任何必須治理、稽核或紅隊測試檢索代理的人 —— 尤其在受監管領域 —— 一個悄悄把推理搬進不透明狀態的 90% 延遲削減,並非白賺。它是一個新的破口:解釋與行為可能在此分歧。

請喝咖啡