arXiv 2605.06285·2026-05-29 — 회 조회

LatentRAG, agentic RAG 추론을 잠재 공간으로 옮겨 추론 지연을 약 90% 절감

Yijia Zheng, Marcel Worring · University of Amsterdam

arXiv 신규 논문 LatentRAG는 agentic RAG의 다단계 추론과 쿼리 생성을 토큰 단위 텍스트에서 연속 잠재 공간으로 옮겨, 명시적 에이전트와 동등한 정확도를 유지하면서 추론 지연을 약 90% 절감한다.

arxiv.org/abs/2605.06285 ↗

LatentRAG: Latent Reasoning and Retrieval for Efficient Agentic RAG(arXiv:2605.06285)는 University of Amsterdam의 Yijia Zheng와 Marcel Worring가 쓴 논문으로, 2026년 5월 7일 arXiv에 제출되었다. 겨냥하는 것은 agentic 검색 증강 생성(RAG)의 가장 아픈 비용, 곧 속도다.

agentic RAG의 문제

agentic RAG 시스템이 강력한 이유는 한 번 검색하고 답하는 데 그치지 않기 때문이다. 자율적으로 검색 쿼리를 발행하고, 돌아온 내용을 읽고, 빈틈을 추론하며, 여러 단계를 연쇄한다 —— 충분한 정보가 모일 때까지 후속 서브쿼리를 계속 발행한다. 바로 이 자율성이 어려운 멀티홉 질문에서 정확도를 유지하게 한다.

그러나 바로 그것이 느림의 원인이기도 하다. 모든 생각과 모든 서브쿼리가 자연어로, 한 번에 한 토큰씩 생성된다. 소리 내어 생각하고 여러 서브쿼리를 쓰는 다단계 에이전트는 매 단계마다 완전한 자기회귀 디코딩 비용을 치른다. 채팅, 검색, 코파일럿 같은 대화형 프로덕션 용도에서는 이 지연 때문에 다단계 검색 에이전트가 사실상 채택되기 어려웠다.

LatentRAG가 바꾸는 것

LatentRAG의 수는 에이전트의 추론을 아예 텍스트로 직렬화하지 않는 것이다. 긴 자연어 생각과 서브쿼리를 토큰 단위로 생성하는 대신, 모델의 은닉 상태로부터 생각과 서브쿼리의 잠재 토큰을 단일 순전파로 직접 생성한다. 추론과 검색 모두 이산적 언어가 아니라 연속 잠재 공간에 머문다.

agentic RAG의 비싼 부분이 바로 생각과 서브쿼리의 토큰 단위 생성이었기에, 그 작업을 잠재 공간에서 —— 여러 디코딩 단계가 아니라 단일 순전파로 —— 수행하는 데서 가속이 나온다.

읽을 수 있게 유지하기

잠재 전용 에이전트는 블랙박스가 된다. LatentRAG는 병렬 잠재 디코딩 단계를 추가해 잠재 표현을 자연어로 되돌림으로써, 추론이 투명하고 검사 가능하게 유지되도록 한다. 이 디코딩은 잠재 계산을 가로막지 않고 나란히 실행되므로, 투명성이 제거하려던 지연을 다시 끌어들이지 않는다.

결과

일곱 개의 벤치마크 데이터셋에 걸쳐 저자들은 명시적 agentic RAG와 비슷한 정확도를 유지하면서 추론 지연을 약 90% 줄였다고 보고한다. 이는 전통적 단일 단계 RAG와의 속도 격차를 거의 메운다 —— 단일 단계 RAG가 빠른 이유는 검색 한 번, 생성 한 번만 하기 때문이다. 결과가 유지된다면 거의 단일 단계 속도로 다단계 agentic 정확도를 얻게 된다.

왜 중요한가

대부분의 agentic RAG 효율 연구는 연산의 「횟수」를 공략한다. 검색을 줄이고, 추론 단계를 줄이고, 더 똑똑하게 멈춘다. LatentRAG가 공략하는 것은 각 단계의 비용 자체 —— 에이전트의 생각을 아예 텍스트로 만들지 않음으로써다. 이는 다른 최적화 축이며, 일반화된다면 다단계 검색 에이전트를 대화형 배포에 너무 느리게 묶어 둔 「정확도 대 지연」 트레이드오프를 다시 짜는 바로 그 축이다.

실무 노트

agentic RAG를 운영하거나 평가하는 팀에게:

agentic 정확도에는 agentic 지연이 반드시 따른다고 가정하지 말 것. 지연세는 팀이 단일 단계 RAG로 후퇴하는 표준적 이유였다. LatentRAG의 주장은, 그 세금이 텍스트 직렬화의 속성이지 다단계 추론의 속성이 아니라는 것이다. 순전히 속도 때문에 agentic RAG를 기각했다면, 그 계산은 바뀌고 있을지 모른다.
추론이 「존재하는가」만이 아니라 「어디에 사는가」를 볼 것. 자연어 생각 로그는 구조적으로 감사 가능하다. 사후에 디코딩된 잠재 생각은 재구성일 뿐이다. 디코딩된 텍스트는 보장된 축어 기록이 아니라 설명으로 다룰 것.
자신의 검색 코퍼스로 벤치마크할 것. 일곱 개 공개 데이터셋은 강한 신호이지만, 벤치마크식 멀티홉 질문으로 훈련된 잠재 추론은 당신 도메인의 쿼리 분포에서 다르게 동작할 수 있다. 지연 이득은 재현하기 쉽지만, 정확도 동등성이야말로 검증해야 할 대상이다.

덜 고려된 관점: 추론을 잠재 공간으로 옮기는 것은 감사 가능성을 속도와 맞바꾸는 일이며, 그 거래가 숨는 곳이 바로 덧붙인 디코더다. 에이전트가 텍스트로 추론하면 로그 「그 자체」가 추론이며, 검색하고 가드레일을 걸고 재생할 수 있다. 연속 은닉 상태로 추론하고 별도 디코더가 사후에 서술하면, 기록되는 것은 서술이지 계산이 아니다. 그 자연어 디코딩이 잠재 단계가 실제로 한 일을 충실히 반영한다는 보장은 없다. 검색 에이전트를 통치·감사·레드팀해야 하는 사람에게 —— 특히 규제 영역에서 —— 추론을 슬그머니 불투명한 상태로 옮기는 90% 지연 절감은 공짜 이득이 아니다. 그것은 새로운 표면, 곧 설명과 행동이 갈라질 수 있는 자리다.