arXiv 2605.06285·2026-05-29 — 次浏览
LatentRAG 把 agentic RAG 推理搬进 latent space,推理延迟砍掉约 90%
Yijia Zheng, Marcel Worring · University of Amsterdam
arXiv 新论文 LatentRAG 把 agentic RAG 的多步推理与查询生成,从逐字 token 的文本搬进连续的 latent space,准确度追平显式代理,同时把推理延迟砍掉约 90%。
LatentRAG: Latent Reasoning and Retrieval for Efficient Agentic RAG(arXiv:2605.06285),由 University of Amsterdam 的 Yijia Zheng 与 Marcel Worring 撰写,于 2026 年 5 月 7 日提交至 arXiv。它瞄准 agentic 检索增强生成(RAG)最痛的一个成本:速度。
agentic RAG 的问题
agentic RAG 系统之所以强大,是因为它不是检索一次就回答。它会自主发出搜索查询、读返回的内容、针对缺口推理,并串接多个步骤 —— 不断发出后续子查询,直到信息足够才回答。正是这种自主性,让它在困难的多跳问题上能保持准确。
但也正是这一点让它变慢。每个想法、每个子查询都是以自然语言、一次一个 token 生成的。一个会「想出声」又写好几个子查询的多步代理,在每一步都付出完整的自回归解码成本。对于交互式生产环境 —— 聊天、搜索、copilot —— 这种延迟让多步检索代理基本上难以采用。
LatentRAG 改了什么
LatentRAG 的做法是干脆不再把代理的推理序列化成文本。它不再逐字生成冗长的自然语言想法与子查询,而是在一次前向传递中,直接从模型的隐藏状态产生想法与子查询的 latent token。推理与检索都留在连续的 latent space,而不是离散的语言。
由于 agentic RAG 昂贵的部分正是逐字生成想法与子查询,把这份工作放进 latent space 完成 —— 用一次前向传递取代多次解码步骤 —— 加速就来自这里。
保持可读
纯 latent 的代理会是个黑盒。LatentRAG 加上一个并行的 latent 解码步骤,把 latent 表征转回自然语言,让推理仍然透明、可检视。这个解码与 latent 计算并行运行,而非卡在它前面,所以透明度不会把它想去除的延迟又带回来。
结果
横跨七个基准数据集,作者报告准确度与显式 agentic RAG 相当,同时把推理延迟降低约 90%。这大致追平了与传统单步 RAG 的速度差距 —— 单步 RAG 之所以快,正是因为它只做一次检索、一次生成。若结果成立,你将以接近单步的速度,拿到多步 agentic 的准确度。
为什么重要
多数 agentic RAG 效率研究攻击的是操作的「数量」:更少搜索、更少推理步、更聪明的停止。LatentRAG 攻击的却是每一步的成本本身 —— 靠的是根本不把代理的想法变成文本。这是一条不同的优化轴线,而且若能推广,正是它重构了那个一直让多步检索代理太慢、无法交互部署的「准确度 vs 延迟」权衡。
实务笔记
给正在运行或评估 agentic RAG 的团队:
- 别假设 agentic 的准确度必然伴随 agentic 的延迟。 延迟税一直是团队退回单步 RAG 的标准理由。LatentRAG 的主张是:这份税是文本序列化的性质,不是多步推理的性质。若你纯粹因为速度而否决 agentic RAG,这笔账可能正在改变。
- 盯住推理「住在哪里」,而不只是它存不存在。 自然语言的想法日志天生可审计。事后解码出来的 latent 想法是一种重建。把解码文本当成解释,而非保证属实的逐字稿。
- 用你自己的检索语料做基准测试。 七个公开数据集是强信号,但在基准式多跳问题上训练的 latent 推理,在你领域的查询分布上可能表现不同。延迟的提升容易复现;准确度持平才是要验证的东西。
少有人谈的角度:把推理搬进 latent space,是用可审计性换速度,而那个外挂解码器正是这笔交易藏身之处。 当代理用文本推理,你的日志「就是」推理 —— 你能搜索它、为它设护栏、重播它。当它在连续隐藏状态里推理、再由一个独立解码器事后旁白,你记下的是旁白,不是计算。没有任何保证那段自然语言解码忠实反映了 latent 步骤实际做了什么。对任何必须治理、审计或红队测试检索代理的人 —— 尤其在受监管领域 —— 一个悄悄把推理搬进不透明状态的 90% 延迟削减,并非白赚。它是一个新的破口:解释与行为可能在此分歧。