QUITO-X: A New Perspective on Context Compression from the Information Bottleneck Theory

要約

Generative LLM は、その有望なインコンテキスト学習機能により、さまざまな産業アプリケーションで目覚ましい成功を収めています。
ただし、複雑なタスクにおける長いコンテキストの問題は、次の 2 つの主な側面に明らかなように、より広範な採用に対して大きな障壁となっています。 (i) 過度に長いコンテキストは、高コストと推論の遅延につながります。
(ii) 長いコンテキストによってタスクに無関係な大量の情報が導入されると、「途中で失われた」問題が悪化します。
既存の方法は、自己情報や PPL などのメトリクスを使用して冗長なトークンを削除することでコンテキストを圧縮しますが、これは、特定のクエリで条件付けするときに最も重要なトークンを保持するという目的と矛盾します。
この研究では、問題をモデル化するために情報ボトルネック理論 (IB) を導入し、コンテキスト圧縮に必要な本質的な特性に徹底的に取り組む新しい視点を提供します。
さらに、IB の相互情報を近似するためのクロスアテンションベースのアプローチを提案します。これは、さまざまなシナリオで適切な代替手段に柔軟に置き換えることができます。
4 つのデータセットに対する広範な実験により、私たちの方法は質問応答のパフォーマンスを維持しながら、最新技術と比較して 25% の圧縮率の向上を達成できることが実証されました。
特に、私たちの方法で圧縮されたコンテキストは、場合によっては完全なコンテキストよりも優れたパフォーマンスを発揮します。

要約(オリジナル)

Generative LLM have achieved remarkable success in various industrial applications, owing to their promising In-Context Learning capabilities. However, the issue of long context in complex tasks poses a significant barrier to their wider adoption, manifested in two main aspects: (i) The excessively long context leads to high costs and inference delays. (ii) A substantial amount of task-irrelevant information introduced by long contexts exacerbates the ‘lost in the middle’ problem. Existing methods compress context by removing redundant tokens using metrics such as self-information or PPL, which is inconsistent with the objective of retaining the most important tokens when conditioning on a given query. In this study, we introduce information bottleneck theory (IB) to model the problem, offering a novel perspective that thoroughly addresses the essential properties required for context compression. Additionally, we propose a cross-attention-based approach to approximate mutual information in IB, which can be flexibly replaced with suitable alternatives in different scenarios. Extensive experiments on four datasets demonstrate that our method achieves a 25% increase in compression rate compared to the state-of-the-art, while maintaining question answering performance. In particular, the context compressed by our method even outperform the full context in some cases.

arxiv情報

著者 Yihang Wang,Xu Huang,Bowen Tian,Yueyang Su,Lei Yu,Huaming Liao,Yixing Fan,Jiafeng Guo,Xueqi Cheng
発行日 2024-12-16 15:03:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク