Skip to content
AI-Daily-Builder

arXiv 2606.04302·2026-06-07 次瀏覽

LazyAttention:與位置無關的 KV 重用,解開 RAG 快取瓶頸

Haocheng Xia, Mihir Pamnani, Hanxi Fang, Supawit Chockchowwat, Yongjoo Park · University of Illinois Urbana-Champaign (DAIS group)

ICML 2026 的一篇新論文 LazyAttention(arXiv:2606.04302)處理了 KV 快取在檢索增強生成中的一項頑固限制:由於位置資訊被烘焙進快取,在某個位置快取的區塊無法在另一個位置重用。作者將位置編碼延後到注意力核心本身執行,讓單一份實體 KV 副本能服務多個邏輯位置,且零複製。在偏斜的文件工作負載上,他們回報相較於 Block-Attention,首字延遲(TTFT)快 1.37x、吞吐量高 1.40x,且品質相當。

arxiv.org/abs/2606.04302 ↗


這篇論文在談什麼

鍵值(KV)快取是讓大型語言模型推論加速的標準技巧:一個 token 一旦被處理過,它的 key 與 value 向量就會被儲存起來,從此不必重新計算。在像檢索增強生成(RAG)與情境內學習這類長上下文情境中,快取更顯重要,因為同樣的參考文件會一遍又一遍地餵給模型。

但有個陷阱。傳統 KV 快取會把位置資訊直接烘焙進所儲存的向量裡。這代表一個在位置 1 被快取的文件區塊,無法直接被放進另一個提示的位置 3 ——位置不再對得上。論文「LazyAttention: Efficient Retrieval-Augmented Generation with Deferred Positional Encoding」(arXiv:2606.04302,於 2026 年 6 月 3 日投稿,獲 ICML 2026 接受,作者為伊利諾大學厄巴納-香檳分校的 Haocheng Xia、Mihir Pamnani、Hanxi Fang、Supawit Chockchowwat 與 Yongjoo Park)正是針對這道可重用性的高牆。

核心構想

現今的權宜做法分為兩派。一派把重用限制在共享前綴上(如果每個請求都以相同的樣板開頭就沒問題,但一旦被檢索到的區塊位置重新洗牌就毫無用處)。另一派則透過在記憶體中實體化一份全新的快取副本來重新編碼位置,這在時間與頻寬上都很昂貴。

LazyAttention 的做法是乾脆完全不把位置寫進快取,而是延後套用位置編碼——在計算過程中於注意力核心內部「即時」進行。作者將此描述為把延後的位置編碼核心化,以取得「零複製、與位置無關的 KV 重用」。由於位置是在計算時注入,單一份實體 KV 副本就能服務許多位於任意位置的邏輯請求,而無須複製。他們為推論的兩個階段各自打造了經過調校的核心:預填充(消化提示)與解碼(一次生成一個 token)。

為何重要

RAG 與代理式管線正是服務成本悄悄堆積之處:同樣那一小撮熱門文件會被許多使用者、許多查詢反覆檢索,但傳統快取在這些區塊落到新位置時都會強迫重新處理。這篇論文回報的增益是在偏斜的文件分布下、相對於近期最先進的重用方法 Block-Attention 量測得到——也就是少數文件很熱、多數文件很冷的現實情境。

指標相較於 Block-Attention 回報的增益
首字延遲(TTFT)降低 1.37x
推論吞吐量提升 1.40x
輸出品質「相當」(依摘要所述)

對於想看穿標題數字的人,有兩點值得標註。第一,這些改善是在偏斜的文件分布下宣稱的;一個區塊重用很少的均勻工作負載應該會縮小差距,因為可供共享的快取較少。第二,摘要把品質回報為「相當」而非完全相同——延後位置編碼是一種架構上的介入,所以在採用之前正確的做法是重新跑你自己針對任務的評測,而不是信任單一份品質摘要。

實務者備註

如果你經營一個 RAG 服務,而你的檢索分布是重尾的(一小組常青文件佔主導),這就是那種不必動到模型權重或重新訓練就能收效的最佳化。要問你的服務堆疊的實務問題是:它只重用共享前綴,還是無論被檢索到的區塊出現在提示的哪個位置都能重用?LazyAttention 正是瞄準後者。把 1.37x 與 1.40x 這兩個數字當成與偏斜程度綁定的偏上界,在你自己的基準上驗證品質,並在規劃遷移之前檢查這種核心做法是否與你的位置編碼方案相容。

一個未被充分考量的角度

關於 LLM 服務成本的公開討論大多執著於前綴快取與更長的上下文視窗,但檢索系統中更鋒利的槓桿其實是位置可重用性——也就是把已快取的區塊當成可移動的物件,而非黏死在它最初被看見之處的能力。這個重新框架有一個少有團隊編入預算的下游後果:它把心力從壓榨模型,轉移到設計檢索層、好讓熱門區塊真的會重複出現。一個與位置無關的快取,唯有在你的檢索器產生足夠的重複來填滿它時,才值得它帶來的複雜度;這項最佳化與檢索分布的形狀是耦合的,只評估其中一者而不顧另一者,會在真實世界的節省上誤導你。

請喝咖啡