要約
大規模な言語モデル(LLMS)は、計算の非効率性と冗長処理により、コンテキスト圧縮技術への関心を促進するため、長いシーケンス推論に大きな課題に遭遇します。
既存の方法は、多くの場合、トークンの重要性に依存して、硬いローカル圧縮を実行したり、コンテキストをエンコードしてソフトグローバル圧縮の潜在表現にエンコードしたりします。
ただし、テキストコンテンツの関連性の不均一な分布とユーザーの指示に対する要求の多様性は、これらのアプローチが潜在的に貴重な情報の損失に頻繁につながることを意味します。
これに対処するために、$ \ textbf {hy} $ brid $ \ textbf {co} $ ntext $ \ textbf {co} $ mpression(hyco $ _2 $)を提案します。
具体的には、さまざまなアダプターが異なるタスクで優れているという観察に基づいて、グローバルなセマンティクスをグローバルビューで改良するためにハイブリッドアダプターを採用しています。
次に、ローカルビューに基づいて各コンテキストトークンに保持確率を割り当てる分類レイヤーを組み込み、保持するか廃棄するかを決定します。
グローバル圧縮とローカル圧縮のバランスの取れた統合を促進するために、命令チューニング前に補助用の言い換えと完了前の事前化を紹介します。
これにより、指導に関連する情報を強調しながら、本質的なローカルの詳細を保持し、最終的にコンテキスト圧縮におけるローカルおよびグローバルな情報保持のバランスをとる相乗的統合が促進されます。
実験では、HYCO $ _2 $メソッドがトークンの使用を削減しながら、長いテキストの推論を大幅に強化することを示しています。
さまざまなLLMシリーズのパフォーマンスが、7つの知識集約型QAベンチマークで平均13.1 \%で改善されます。
さらに、HYCO $ _2 $は、非圧縮方法のパフォーマンスと一致し、トークン消費量を88.8 \%削減します。
要約(オリジナル)
Large Language Models (LLMs) encounter significant challenges in long-sequence inference due to computational inefficiency and redundant processing, driving interest in context compression techniques. Existing methods often rely on token importance to perform hard local compression or encode context into latent representations for soft global compression. However, the uneven distribution of textual content relevance and the diversity of demands for user instructions mean these approaches frequently lead to the loss of potentially valuable information. To address this, we propose $\textbf{Hy}$brid $\textbf{Co}$ntext $\textbf{Co}$mpression (HyCo$_2$) for LLMs, which integrates both global and local perspectives to guide context compression while retaining both the essential semantics and critical details for task completion. Specifically, we employ a hybrid adapter to refine global semantics with the global view, based on the observation that different adapters excel at different tasks. Then we incorporate a classification layer that assigns a retention probability to each context token based on the local view, determining whether it should be retained or discarded. To foster a balanced integration of global and local compression, we introduce auxiliary paraphrasing and completion pretraining before instruction tuning. This promotes a synergistic integration that emphasizes instruction-relevant information while preserving essential local details, ultimately balancing local and global information retention in context compression. Experiments show that our HyCo$_2$ method significantly enhances long-text reasoning while reducing token usage. It improves the performance of various LLM series by an average of 13.1\% across seven knowledge-intensive QA benchmarks. Moreover, HyCo$_2$ matches the performance of uncompressed methods while reducing token consumption by 88.8\%.
arxiv情報
著者 | Huanxuan Liao,Wen Hu,Yao Xu,Shizhu He,Jun Zhao,Kang Liu |
発行日 | 2025-05-21 17:26:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google