QwenLong-CPRS: Towards $\infty$-LLMs with Dynamic Context Optimization

要約

このテクニカルレポートは、明示的な長いコンテキスト最適化のために設計されたコンテキスト圧縮フレームワークであるQwenlong-CPRSを提示し、プレフィル段階での法外な計算オーバーヘッドと、長いシーケンス処理中の大規模な言語モデル(LLMS)のパフォーマンス分解(LLMS)に対処します。
新しい動的コンテキスト最適化メカニズムを通じて実装されたQwenlong-CPRSにより、自然言語の指示に導かれた多粒度コンテキスト圧縮が可能になり、効率の向上とパフォーマンスの改善が実現されます。
Qwen Architectureシリーズから進化したQwenlong-CPRSは、4つの重要なイノベーションを導入します。(1)自然言語誘導動的最適化、(2)境界認識の向上のための双方向推論層、(3)言語モデリングヘッドを備えたトークン批評家メカニズム、および(4)窓と平行の推論。
5つのベンチマーク(4K-2M Wordコンテキスト)にわたる包括的な評価は、Qwenlong-CPRSの3つの効果を示しています。(1)ラグやまばらな注意などの他のコンテキスト管理方法よりも、精度と効率の両方で一貫した優位性。
(2)GPT-4O、GEMINI2.0-PRO、CLAUDE3.7-SONNET、DEEPSEEK-V3、およびQWEN2.5-MAXを含むすべてのフラッグシップLLMとのアーキテクチャと存在統合は、19.15ポイント平均パフォーマンスに沿って21.59 $ \ Times $コンテキストコンプレッションを達成します。
(3)QWEN2.5-32B-INSTRUCTで展開されたQWENLONG-CPRSは、Ruler-128KおよびInfiniteBenchで4.85および10.88ポイント上の独自のLLMSを上回り、新しいSOTAパフォーマンスを確立します。

要約(オリジナル)

This technical report presents QwenLong-CPRS, a context compression framework designed for explicit long-context optimization, addressing prohibitive computation overhead during the prefill stage and the ‘lost in the middle’ performance degradation of large language models (LLMs) during long sequence processing. Implemented through a novel dynamic context optimization mechanism, QwenLong-CPRS enables multi-granularity context compression guided by natural language instructions, achieving both efficiency gains and improved performance. Evolved from the Qwen architecture series, QwenLong-CPRS introduces four key innovations: (1) Natural language-guided dynamic optimization, (2) Bidirectional reasoning layers for enhanced boundary awareness, (3) Token critic mechanisms with language modeling heads, and (4) Window-parallel inference. Comprehensive evaluations across five benchmarks (4K-2M word contexts) demonstrate QwenLong-CPRS’s threefold effectiveness: (1) Consistent superiority over other context management methods like RAG and sparse attention in both accuracy and efficiency. (2) Architecture-agnostic integration with all flagship LLMs, including GPT-4o, Gemini2.0-pro, Claude3.7-sonnet, DeepSeek-v3, and Qwen2.5-max, achieves 21.59$\times$ context compression alongside 19.15-point average performance gains; (3) Deployed with Qwen2.5-32B-Instruct, QwenLong-CPRS surpasses leading proprietary LLMs by 4.85 and 10.88 points on Ruler-128K and InfiniteBench, establishing new SOTA performance.

arxiv情報

著者 Weizhou Shen,Chenliang Li,Fanqi Wan,Shengyi Liao,Shaopeng Lai,Bo Zhang,Yingcheng Shi,Yuning Wu,Gang Fu,Zhansheng Li,Bin Yang,Ji Zhang,Fei Huang,Jingren Zhou,Ming Yan
発行日 2025-05-23 16:47:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク