arXiv 2605.06285·2026-05-29 — 次浏览

LatentRAG 把 agentic RAG 推理搬进 latent space，推理延迟砍掉约 90%

Yijia Zheng, Marcel Worring · University of Amsterdam

arXiv 新论文 LatentRAG 把 agentic RAG 的多步推理与查询生成，从逐字 token 的文本搬进连续的 latent space，准确度追平显式代理，同时把推理延迟砍掉约 90%。

LatentRAG: Latent Reasoning and Retrieval for Efficient Agentic RAG（arXiv:2605.06285），由 University of Amsterdam 的 Yijia Zheng 与 Marcel Worring 撰写，于 2026 年 5 月 7 日提交至 arXiv。它瞄准 agentic 检索增强生成（RAG）最痛的一个成本：速度。

agentic RAG 的问题

agentic RAG 系统之所以强大，是因为它不是检索一次就回答。它会自主发出搜索查询、读返回的内容、针对缺口推理，并串接多个步骤 —— 不断发出后续子查询，直到信息足够才回答。正是这种自主性，让它在困难的多跳问题上能保持准确。

但也正是这一点让它变慢。每个想法、每个子查询都是以自然语言、一次一个 token 生成的。一个会「想出声」又写好几个子查询的多步代理，在每一步都付出完整的自回归解码成本。对于交互式生产环境 —— 聊天、搜索、copilot —— 这种延迟让多步检索代理基本上难以采用。

LatentRAG 改了什么

LatentRAG 的做法是干脆不再把代理的推理序列化成文本。它不再逐字生成冗长的自然语言想法与子查询，而是在一次前向传递中，直接从模型的隐藏状态产生想法与子查询的 latent token。推理与检索都留在连续的 latent space，而不是离散的语言。

由于 agentic RAG 昂贵的部分正是逐字生成想法与子查询，把这份工作放进 latent space 完成 —— 用一次前向传递取代多次解码步骤 —— 加速就来自这里。

保持可读

纯 latent 的代理会是个黑盒。LatentRAG 加上一个并行的 latent 解码步骤，把 latent 表征转回自然语言，让推理仍然透明、可检视。这个解码与 latent 计算并行运行，而非卡在它前面，所以透明度不会把它想去除的延迟又带回来。

结果

横跨七个基准数据集，作者报告准确度与显式 agentic RAG 相当，同时把推理延迟降低约 90%。这大致追平了与传统单步 RAG 的速度差距 —— 单步 RAG 之所以快，正是因为它只做一次检索、一次生成。若结果成立，你将以接近单步的速度，拿到多步 agentic 的准确度。

为什么重要

多数 agentic RAG 效率研究攻击的是操作的「数量」：更少搜索、更少推理步、更聪明的停止。LatentRAG 攻击的却是每一步的成本本身 —— 靠的是根本不把代理的想法变成文本。这是一条不同的优化轴线，而且若能推广，正是它重构了那个一直让多步检索代理太慢、无法交互部署的「准确度 vs 延迟」权衡。

实务笔记

给正在运行或评估 agentic RAG 的团队：

别假设 agentic 的准确度必然伴随 agentic 的延迟。 延迟税一直是团队退回单步 RAG 的标准理由。LatentRAG 的主张是：这份税是文本序列化的性质，不是多步推理的性质。若你纯粹因为速度而否决 agentic RAG，这笔账可能正在改变。
盯住推理「住在哪里」，而不只是它存不存在。 自然语言的想法日志天生可审计。事后解码出来的 latent 想法是一种重建。把解码文本当成解释，而非保证属实的逐字稿。
用你自己的检索语料做基准测试。 七个公开数据集是强信号，但在基准式多跳问题上训练的 latent 推理，在你领域的查询分布上可能表现不同。延迟的提升容易复现；准确度持平才是要验证的东西。

少有人谈的角度：把推理搬进 latent space，是用可审计性换速度，而那个外挂解码器正是这笔交易藏身之处。 当代理用文本推理，你的日志「就是」推理 —— 你能搜索它、为它设护栏、重播它。当它在连续隐藏状态里推理、再由一个独立解码器事后旁白，你记下的是旁白，不是计算。没有任何保证那段自然语言解码忠实反映了 latent 步骤实际做了什么。对任何必须治理、审计或红队测试检索代理的人 —— 尤其在受监管领域 —— 一个悄悄把推理搬进不透明状态的 90% 延迟削减，并非白赚。它是一个新的破口：解释与行为可能在此分歧。