Skip to content
AI-Daily-Builder

arXiv 2605.06285·2026-05-29 次浏览

LatentRAG 把 agentic RAG 推理搬进 latent space,推理延迟砍掉约 90%

Yijia Zheng, Marcel Worring · University of Amsterdam

arXiv 新论文 LatentRAG 把 agentic RAG 的多步推理与查询生成,从逐字 token 的文本搬进连续的 latent space,准确度追平显式代理,同时把推理延迟砍掉约 90%。

arxiv.org/abs/2605.06285 ↗


LatentRAG: Latent Reasoning and Retrieval for Efficient Agentic RAG(arXiv:2605.06285),由 University of Amsterdam 的 Yijia Zheng 与 Marcel Worring 撰写,于 2026 年 5 月 7 日提交至 arXiv。它瞄准 agentic 检索增强生成(RAG)最痛的一个成本:速度。

agentic RAG 的问题

agentic RAG 系统之所以强大,是因为它不是检索一次就回答。它会自主发出搜索查询、读返回的内容、针对缺口推理,并串接多个步骤 —— 不断发出后续子查询,直到信息足够才回答。正是这种自主性,让它在困难的多跳问题上能保持准确。

但也正是这一点让它变慢。每个想法、每个子查询都是以自然语言、一次一个 token 生成的。一个会「想出声」又写好几个子查询的多步代理,在每一步都付出完整的自回归解码成本。对于交互式生产环境 —— 聊天、搜索、copilot —— 这种延迟让多步检索代理基本上难以采用。

LatentRAG 改了什么

LatentRAG 的做法是干脆不再把代理的推理序列化成文本。它不再逐字生成冗长的自然语言想法与子查询,而是在一次前向传递中,直接从模型的隐藏状态产生想法与子查询的 latent token。推理与检索都留在连续的 latent space,而不是离散的语言。

由于 agentic RAG 昂贵的部分正是逐字生成想法与子查询,把这份工作放进 latent space 完成 —— 用一次前向传递取代多次解码步骤 —— 加速就来自这里。

保持可读

纯 latent 的代理会是个黑盒。LatentRAG 加上一个并行的 latent 解码步骤,把 latent 表征转回自然语言,让推理仍然透明、可检视。这个解码与 latent 计算并行运行,而非卡在它前面,所以透明度不会把它想去除的延迟又带回来。

结果

横跨七个基准数据集,作者报告准确度与显式 agentic RAG 相当,同时把推理延迟降低约 90%。这大致追平了与传统单步 RAG 的速度差距 —— 单步 RAG 之所以快,正是因为它只做一次检索、一次生成。若结果成立,你将以接近单步的速度,拿到多步 agentic 的准确度。

为什么重要

多数 agentic RAG 效率研究攻击的是操作的「数量」:更少搜索、更少推理步、更聪明的停止。LatentRAG 攻击的却是每一步的成本本身 —— 靠的是根本不把代理的想法变成文本。这是一条不同的优化轴线,而且若能推广,正是它重构了那个一直让多步检索代理太慢、无法交互部署的「准确度 vs 延迟」权衡。

实务笔记

给正在运行或评估 agentic RAG 的团队:

少有人谈的角度:把推理搬进 latent space,是用可审计性换速度,而那个外挂解码器正是这笔交易藏身之处。 当代理用文本推理,你的日志「就是」推理 —— 你能搜索它、为它设护栏、重播它。当它在连续隐藏状态里推理、再由一个独立解码器事后旁白,你记下的是旁白,不是计算。没有任何保证那段自然语言解码忠实反映了 latent 步骤实际做了什么。对任何必须治理、审计或红队测试检索代理的人 —— 尤其在受监管领域 —— 一个悄悄把推理搬进不透明状态的 90% 延迟削减,并非白赚。它是一个新的破口:解释与行为可能在此分歧。

请喝咖啡