arXiv 2606.04302·2026-06-07 — 回閲覧
LazyAttention:位置に依存しない KV 再利用が RAG キャッシュのボトルネックを解きほぐす
Haocheng Xia, Mihir Pamnani, Hanxi Fang, Supawit Chockchowwat, Yongjoo Park · University of Illinois Urbana-Champaign (DAIS group)
ICML 2026 の新しい論文 LazyAttention(arXiv:2606.04302)は、検索拡張生成における KV キャッシュの根強い制約に取り組んでいる。位置情報がキャッシュに焼き込まれているため、ある位置でキャッシュされたチャンクを別の位置で再利用できないのだ。著者らは位置エンコーディングをアテンションカーネル自体へ遅延させ、1 つの物理 KV コピーがコピーゼロで多数の論理位置に対応できるようにする。偏った文書ワークロードにおいて、Block-Attention に対し最初のトークンまでの時間が 1.37x 高速、スループットが
この論文の概要
キー・バリュー(KV)キャッシュは、大規模言語モデルの推論を高速化する標準的な手法だ。トークンが一度処理されると、その key と value のベクトルが保存され、二度と再計算する必要がなくなる。検索拡張生成(RAG)や文脈内学習のような長文脈の場面では、同じ参照文書が何度も何度もモデルに与えられるため、キャッシュはさらに重要になる。
ただし落とし穴がある。従来の KV キャッシュは、位置情報を保存されるベクトルへ直接焼き込んでしまう。つまり、位置 1 にあったときにキャッシュされた文書チャンクは、別のプロンプトの位置 3 にそのまま落とし込むことができない——位置がもう一致しないのだ。論文「LazyAttention: Efficient Retrieval-Augmented Generation with Deferred Positional Encoding」(arXiv:2606.04302、2026 年 6 月 3 日投稿、ICML 2026 に採択、イリノイ大学アーバナ・シャンペーン校の Haocheng Xia、Mihir Pamnani、Hanxi Fang、Supawit Chockchowwat、Yongjoo Park による)は、まさにこの再利用性の壁に挑む。
中核となるアイデア
今日の回避策は 2 つの陣営に分かれる。1 つは再利用を共有プレフィックスのみに制限するもの(どのリクエストも同じ定型文で始まるなら問題ないが、検索されたチャンクの位置が入れ替わると役に立たない)。もう 1 つはキャッシュの新しいコピーをメモリ上に実体化して位置を再エンコードするもので、時間と帯域幅の両面で高くつく。
LazyAttention の一手は、位置をキャッシュへ書き込むことを一切やめ、代わりに位置エンコーディングを遅延的に——計算中にアテンションカーネル内部で「オンザフライで」——適用することだ。著者らはこれを、遅延した位置エンコーディングをカーネル化して「ゼロコピーで位置に依存しない KV 再利用」を得る、と表現している。位置が計算時に注入されるため、1 つの物理 KV コピーが任意の位置にある多数の論理リクエストに、重複なしで対応できる。彼らは推論の 2 つの段階——プレフィル(プロンプトの消化)とデコード(トークンを 1 つずつ生成)——それぞれに合わせて調整した別々のカーネルを構築している。
なぜ重要か
RAG やエージェント型のパイプラインは、サービング費用がひそかに積み上がる場所だ。同じ少数の人気文書が多数のユーザーと多数のクエリにわたって検索されるが、従来のキャッシュはそれらのチャンクが新しい場所に着くたびに再処理を強いる。この論文が報告する向上は、偏った文書分布のもとで、近年の最先端の再利用手法である Block-Attention に対して測定されたものだ——少数の文書がホットで、大半がコールドという現実的なケースである。
| 指標 | Block-Attention に対する報告された向上 |
|---|---|
| 最初のトークンまでの時間(TTFT) | 1.37x 短縮 |
| 推論スループット | 1.40x 増加 |
| 出力品質 | 「同等」(要旨による) |
見出しの数字の先を読む人のために、注記すべき点が 2 つある。第一に、これらの改善は偏った文書分布のもとで主張されている。チャンク再利用がほとんどない一様なワークロードでは、共有できるキャッシュが少ないため差は縮まるはずだ。第二に、要旨は品質を「同一」ではなく「同等」と報告している——位置エンコーディングの遅延はアーキテクチャ上の介入なので、採用前の正しい一手は、単一の品質要約を信じるのではなく、自分のタスク固有の評価を再実行することだ。
実務者向けメモ
RAG サービスを運用していて、検索分布がヘビーテール(少数の常緑文書が支配的)であるなら、これはモデルの重みに触れることも再学習することもなく効果を生むタイプの最適化だ。サービングスタックに問うべき実務的な問いはこうだ——共有プレフィックスだけを再利用するのか、それとも検索されたチャンクがプロンプトのどこに現れても再利用できるのか? LazyAttention はまさに後者を狙っている。1.37x と 1.40x という数字は偏りに紐づいたやや上限に近い値として扱い、自分のベンチマークで品質を検証し、移行を計画する前にそのカーネル方式が自分の位置エンコーディング方式と互換性があるかを確認しよう。
十分に考慮されていない視点
LLM のサービング費用に関する世間の議論の多くはプレフィックスキャッシュと長い文脈窓に固執しているが、検索システムにおけるより鋭いてこは位置の再利用性——キャッシュされたチャンクを、最初に見られた場所に貼り付けられたものではなく、動かせるオブジェクトとして扱う能力——である。この捉え直しには、予算化しているチームがほとんどない下流の帰結がある。それは、労力をモデルの絞り込みから、ホットなチャンクが実際に再出現するように検索層を設計することへと移すのだ。位置に依存しないキャッシュは、検索器がそれを満たすだけの繰り返しを生み出してこそ、その複雑さに見合う。最適化と検索分布の形は結びついており、片方をもう片方なしで評価すれば、実世界の節約について誤った判断に導かれるだろう。