要約
大規模言語モデルの人気の高まりにより、大規模言語モデル (LLM) のコンテキスト圧縮への関心が高まっています。
ただし、以前の方法のパフォーマンスは、圧縮率が増加するにつれて大幅に低下し、場合によってはクローズドブックレベルにまで低下します。
この低下の原因は、圧縮プロセス中に重要な情報が失われることにあると考えられます。
私たちの予備調査はこの仮説を裏付けており、高圧縮率下でモデルのパフォーマンスを維持するために重要な情報を保持することの重要性を強調しています。
その結果、クエリを活用してコンテキスト圧縮プロセスをガイドし、圧縮されたコンテキスト内の重要な情報を効果的に保持するクエリガイド コンプレッサー (QGC) を導入しました。
さらに、動的圧縮戦略を採用しています。
NaturalQuestions、TriviaQA、HotpotQA データセットを含む、質問応答タスクに対する提案された QGC の有効性を検証します。
実験結果は、QGC が高い圧縮率でも一貫して優れたパフォーマンスを発揮できることを示しており、これにより推論コストとスループットの面でも大きなメリットが得られます。
要約(オリジナル)
The growing popularity of Large Language Models has sparked interest in context compression for Large Language Models (LLMs). However, the performance of previous methods degrades dramatically as compression ratios increase, sometimes even falling to the closed-book level. This decline can be attributed to the loss of key information during the compression process. Our preliminary study supports this hypothesis, emphasizing the significance of retaining key information to maintain model performance under high compression ratios. As a result, we introduce Query-Guided Compressor (QGC), which leverages queries to guide the context compression process, effectively preserving key information within the compressed context. Additionally, we employ a dynamic compression strategy. We validate the effectiveness of our proposed QGC on the Question Answering task, including NaturalQuestions, TriviaQA, and HotpotQA datasets. Experimental results show that QGC can consistently perform well even at high compression ratios, which also offers significant benefits in terms of inference cost and throughput.
arxiv情報
著者 | Zhiwei Cao,Qian Cao,Yu Lu,Ningxin Peng,Luyang Huang,Shanbo Cheng,Jinsong Su |
発行日 | 2024-06-04 14:53:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google