要約
ロングコンテキスト LLM は、多数のダウンストリーム アプリケーションを可能にしましたが、計算効率とメモリ効率に関連する重大な課題ももたらしました。
これらの課題に対処するために、KV キャッシュを中心としたロングコンテキスト推論の最適化が開発されました。
ただし、既存のベンチマークは多くの場合、単一リクエストで評価され、実際の使用における KV キャッシュのライフサイクル全体が無視されます。
KV キャッシュの再利用は、vLLM や SGLang などの LLM 推論フレームワークや、OpenAI、Microsoft、Google、Anthropic などの LLM プロバイダーで広く採用されているため、この見落としは特に重要です。
このギャップに対処するために、KV キャッシュ中心の観点からロングコンテキスト メソッドを評価するための包括的なベンチマークである SCBench(SharedContextBench) を導入します。1) KV キャッシュの生成、2) KV キャッシュの圧縮、3) KV キャッシュの取得、4) KV キャッシュのロード
。
具体的には、SCBench は、2 つの共有コンテキスト モードを備えた 12 のタスクにわたる共有コンテキストのテスト サンプルを使用し、文字列検索、セマンティック検索、グローバル情報、マルチタスクという 4 つのカテゴリのロングコンテキスト機能をカバーします。
これにより、ゲート線形 RNN、Mamba アテンション ハイブリッド、およびスパース アテンション、KV キャッシュ ドロップ、量子化、取得、ロード、プロンプトなどの効率的な手法を含む、8 つのカテゴリのロングコンテキスト ソリューションの広範な KV キャッシュ中心の分析が提供されます。
圧縮。
評価は 8 つのロングコンテキスト LLM に対して実行されます。
私たちの調査結果は、サブ O(n) メモリ手法はマルチターン シナリオでは問題が発生する一方、O(n) メモリを使用したスパース エンコーディングとサブ O(n^2) プリフィル計算は堅牢に実行されることを示しています。
動的スパース性により、静的パターンよりも表現力豊かな KV キャッシュが得られ、ハイブリッド アーキテクチャのレイヤーレベルのスパース性により、強力なパフォーマンスでメモリ使用量が削減されます。
さらに、長期世代のシナリオにおける注意力の分布の変化の問題を特定します。
https://aka.ms/SCBench。
要約(オリジナル)
Long-context LLMs have enabled numerous downstream applications but also introduced significant challenges related to computational and memory efficiency. To address these challenges, optimizations for long-context inference have been developed, centered around the KV cache. However, existing benchmarks often evaluate in single-request, neglecting the full lifecycle of the KV cache in real-world use. This oversight is particularly critical, as KV cache reuse has become widely adopted in LLMs inference frameworks, such as vLLM and SGLang, as well as by LLM providers, including OpenAI, Microsoft, Google, and Anthropic. To address this gap, we introduce SCBench(SharedContextBench), a comprehensive benchmark for evaluating long-context methods from a KV cachecentric perspective: 1) KV cache generation, 2) KV cache compression, 3) KV cache retrieval, 4) KV cache loading. Specifically, SCBench uses test examples with shared context, ranging 12 tasks with two shared context modes, covering four categories of long-context capabilities: string retrieval, semantic retrieval, global information, and multi-task. With it, we provide an extensive KV cache-centric analysis of eight categories long-context solutions, including Gated Linear RNNs, Mamba-Attention hybrids, and efficient methods such as sparse attention, KV cache dropping, quantization, retrieval, loading, and prompt compression. The evaluation is conducted on 8 long-context LLMs. Our findings show that sub-O(n) memory methods suffer in multi-turn scenarios, while sparse encoding with O(n) memory and sub-O(n^2) pre-filling computation perform robustly. Dynamic sparsity yields more expressive KV caches than static patterns, and layer-level sparsity in hybrid architectures reduces memory usage with strong performance. Additionally, we identify attention distribution shift issues in long-generation scenarios. https://aka.ms/SCBench.
arxiv情報
著者 | Yucheng Li,Huiqiang Jiang,Qianhui Wu,Xufang Luo,Surin Ahn,Chengruidong Zhang,Amir H. Abdi,Dongsheng Li,Jianfeng Gao,Yuqing Yang,Lili Qiu |
発行日 | 2024-12-13 17:59:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google