要約
長いコンテキストLLMは、多数のダウンストリームアプリケーションを有効にしましたが、計算およびメモリの効率に関連する重要な課題も導入しました。
これらの課題に対処するために、KVキャッシュを中心とした長いコンテキスト推論の最適化が開発されました。
ただし、既存のベンチマークは、多くの場合、単一のリケストで評価され、実際の使用におけるKVキャッシュの完全なライフサイクルを無視します。
KVキャッシュの再利用は、VLLMやSglangなどのLLMS推論フレームワーク、およびOpenai、Microsoft、Google、AnthropicなどのLLMプロバイダーによって広く採用されているため、この監視が特に重要です。
このギャップに対処するために、kv cachecentricの観点から長いコンテキストメソッドを評価するための包括的なベンチマークであるScbench(sharedcontextbench)を紹介します。
具体的には、Scbenchは共有コンテキストでテスト例を使用し、2つの共有コンテキストモードを備えた12のタスクを使用して、文字列検索、セマンティック検索、グローバル情報、マルチタスクの4つのカテゴリの長いコンテキスト機能をカバーしています。
それに伴い、ゲートリニアRNN、マンバアテナテンションハイブリッド、スパースの注意、KVキャッシュドロップ、量子化、回収、荷重、迅速な圧縮などの効率的な方法を含む8つのカテゴリの長いコンテキストソリューションの広範なKVキャッシュ中心分析を提供します。
評価は、8つの長いコンテキストLLMで実施されます。
私たちの調査結果は、サブO(n)メモリメソッドがマルチターンシナリオで苦しんでおり、O(n)メモリとsub-o(n^2)の事前充填計算でのスパースエンコードが堅牢に機能することを示しています。
動的なスパースは、静的パターンよりも表現力豊かなKVキャッシュをもたらし、ハイブリッドアーキテクチャのレイヤーレベルのスパースは、パフォーマンスが強いとメモリの使用量を削減します。
さらに、長い世代のシナリオで注意分布シフトの問題を特定します。
https://aka.ms/scbench。
要約(オリジナル)
Long-context LLMs have enabled numerous downstream applications but also introduced significant challenges related to computational and memory efficiency. To address these challenges, optimizations for long-context inference have been developed, centered around the KV cache. However, existing benchmarks often evaluate in single-request, neglecting the full lifecycle of the KV cache in real-world use. This oversight is particularly critical, as KV cache reuse has become widely adopted in LLMs inference frameworks, such as vLLM and SGLang, as well as by LLM providers, including OpenAI, Microsoft, Google, and Anthropic. To address this gap, we introduce SCBench(SharedContextBench), a comprehensive benchmark for evaluating long-context methods from a KV cachecentric perspective: 1) KV cache generation, 2) KV cache compression, 3) KV cache retrieval, 4) KV cache loading. Specifically, SCBench uses test examples with shared context, ranging 12 tasks with two shared context modes, covering four categories of long-context capabilities: string retrieval, semantic retrieval, global information, and multi-task. With it, we provide an extensive KV cache-centric analysis of eight categories long-context solutions, including Gated Linear RNNs, Mamba-Attention hybrids, and efficient methods such as sparse attention, KV cache dropping, quantization, retrieval, loading, and prompt compression. The evaluation is conducted on 8 long-context LLMs. Our findings show that sub-O(n) memory methods suffer in multi-turn scenarios, while sparse encoding with O(n) memory and sub-O(n^2) pre-filling computation perform robustly. Dynamic sparsity yields more expressive KV caches than static patterns, and layer-level sparsity in hybrid architectures reduces memory usage with strong performance. Additionally, we identify attention distribution shift issues in long-generation scenarios. https://aka.ms/SCBench.
arxiv情報
著者 | Yucheng Li,Huiqiang Jiang,Qianhui Wu,Xufang Luo,Surin Ahn,Chengruidong Zhang,Amir H. Abdi,Dongsheng Li,Jianfeng Gao,Yuqing Yang,Lili Qiu |
発行日 | 2025-03-11 14:02:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google