arXiv 2606.04302·2026-06-07 — 회 조회

LazyAttention: 위치에 무관한 KV 재사용으로 RAG 캐시 병목을 풀다

Haocheng Xia, Mihir Pamnani, Hanxi Fang, Supawit Chockchowwat, Yongjoo Park · University of Illinois Urbana-Champaign (DAIS group)

ICML 2026의 새 논문 LazyAttention(arXiv:2606.04302)은 검색 증강 생성에서 KV 캐싱의 끈질긴 한계를 다룬다. 위치 정보가 캐시에 박혀 있기 때문에, 한 위치에서 캐시된 청크를 다른 위치에서 재사용할 수 없다. 저자들은 위치 인코딩을 어텐션 커널 자체로 미뤄, 하나의 물리적 KV 복사본이 복사 없이 여러 논리적 위치를 처리하게 한다. 치우친 문서 워크로드에서 그들은 Block-Attention 대비 첫 토큰까지의 시간이 1.37x 빠르고 처리량이 1.40x 높으며

arxiv.org/abs/2606.04302 ↗

이 논문은 무엇에 관한 것인가

키-값(KV) 캐싱은 대규모 언어 모델 추론을 빠르게 만드는 표준 기법이다. 토큰이 한 번 처리되면 그 key와 value 벡터가 저장되어 다시는 재계산할 필요가 없다. 검색 증강 생성(RAG)이나 문맥 내 학습 같은 긴 문맥 환경에서는 동일한 참조 문서가 모델에 거듭거듭 입력되기 때문에 캐싱이 더욱 중요해진다.

그런데 함정이 있다. 기존 KV 캐시는 위치 정보를 저장되는 벡터에 직접 박아 넣는다. 이는 위치 1에 있을 때 캐시된 문서 청크를 다른 프롬프트의 위치 3에 그대로 떨어뜨릴 수 없다는 뜻이다 — 위치가 더 이상 들어맞지 않는다. 논문 「LazyAttention: Efficient Retrieval-Augmented Generation with Deferred Positional Encoding」(arXiv:2606.04302, 2026년 6월 3일 제출, ICML 2026 채택, 일리노이 대학교 어배너-섐페인 캠퍼스의 Haocheng Xia, Mihir Pamnani, Hanxi Fang, Supawit Chockchowwat, Yongjoo Park 작성)은 바로 이 재사용성의 벽을 공략한다.

핵심 아이디어

오늘날의 우회책은 두 진영으로 나뉜다. 하나는 재사용을 공유 프리픽스로만 제한하는 것이다(모든 요청이 동일한 상용구로 시작하면 괜찮지만, 검색된 청크가 위치를 뒤섞으면 쓸모가 없다). 다른 하나는 캐시의 새 복사본을 메모리에 구체화하여 위치를 재인코딩하는 것인데, 이는 시간과 대역폭 양쪽 모두에서 비싸다.

LazyAttention의 수는 위치를 캐시에 아예 쓰지 않고, 대신 위치 인코딩을 지연적으로 — 계산 중 어텐션 커널 내부에서 「즉석에서」 — 적용하는 것이다. 저자들은 이를 지연된 위치 인코딩을 커널화하여 「복사 없는, 위치에 무관한 KV 재사용」을 얻는 것이라고 표현한다. 위치가 계산 시점에 주입되기 때문에, 하나의 물리적 KV 복사본이 임의의 위치에 있는 다수의 논리적 요청을 중복 없이 처리할 수 있다. 그들은 추론의 두 단계 — 프리필(프롬프트 소화)과 디코딩(토큰을 한 번에 하나씩 생성) — 각각에 맞춰 조정된 별도의 커널을 구축한다.

왜 중요한가

RAG와 에이전트형 파이프라인은 서빙 비용이 조용히 쌓이는 곳이다. 동일한 소수의 인기 문서가 많은 사용자와 많은 쿼리에 걸쳐 검색되지만, 기존 캐시는 그 청크들이 새 자리에 놓일 때마다 재처리를 강제한다. 이 논문이 보고한 이득은 치우친 문서 분포 아래에서, 최근의 최첨단 재사용 기법인 Block-Attention 대비 측정된 것이다 — 소수의 문서는 뜨겁고 대부분은 차가운 현실적인 경우다.

지표	Block-Attention 대비 보고된 이득
첫 토큰까지의 시간(TTFT)	1.37x 감소
추론 처리량	1.40x 증가
출력 품질	「비슷함」(초록에 따름)

머리기사 숫자 너머를 읽는 이를 위해 짚어둘 만한 두 가지 단서가 있다. 첫째, 이 개선들은 치우친 문서 분포 아래에서 주장된 것이다. 청크 재사용이 거의 없는 균일한 워크로드에서는 공유할 캐시가 적으므로 격차가 좁아질 것이다. 둘째, 초록은 품질을 「동일함」이 아니라 「비슷함」으로 보고한다 — 위치 인코딩을 미루는 것은 아키텍처적 개입이므로, 채택 전의 올바른 수는 단일 품질 요약을 믿기보다 자신의 작업별 평가를 다시 돌려보는 것이다.

실무자 메모

RAG 서비스를 운영하고 검색 분포가 두꺼운 꼬리를 가진다면(소수의 상록 문서가 지배적이라면), 이는 모델 가중치를 건드리거나 재학습하지 않고도 효과를 내는 부류의 최적화다. 서빙 스택에 던질 실무적 질문은 이것이다 — 공유 프리픽스만 재사용하는가, 아니면 검색된 청크가 프롬프트의 어디에 나타나든 재사용할 수 있는가? LazyAttention은 정확히 후자를 겨냥한다. 1.37x와 1.40x 수치를 치우침에 묶인 다소 상한에 가까운 값으로 다루고, 자신의 벤치마크에서 품질을 검증하며, 마이그레이션을 계획하기 전에 그 커널 방식이 자신의 위치 인코딩 방식과 호환되는지 확인하라.

충분히 고려되지 않은 관점

LLM 서빙 비용에 관한 대중의 대화 대부분은 프리픽스 캐싱과 더 긴 문맥 창에 집착하지만, 검색 시스템에서 더 날카로운 지렛대는 위치 재사용성 — 캐시된 청크를 처음 보였던 자리에 붙박인 무언가가 아니라 옮길 수 있는 객체로 다루는 능력 — 이다. 이 재구성에는 예산에 반영하는 팀이 거의 없는 하류 결과가 있다. 그것은 노력을 모델을 쥐어짜는 데서, 뜨거운 청크가 실제로 다시 나타나도록 검색 계층을 설계하는 쪽으로 옮긴다. 위치에 무관한 캐시는 검색기가 그것을 채울 만큼의 반복을 만들어낼 때에만 그 복잡성만큼의 값어치가 있다. 최적화와 검색 분포의 형태는 결합되어 있으며, 한쪽을 다른 쪽 없이 평가하면 실세계의 절감에 관해 그릇된 판단으로 이끌릴 것이다.