QUITO: Accelerating Long-Context Reasoning through Query-Guided Context Compression

要約

大規模言語モデル(LLM)の成功には、文脈内学習(ICL)機能が不可欠である。近年、LLMの推論の複雑さと計算コストを大幅に削減できるコンテキスト圧縮に注目が集まっている。本論文では、新しいQuery-gUIded aTtention cOmpression (QUITO)手法を紹介する。この手法は、文脈に対する質問の注意を活用し、無駄な情報をフィルタリングする。具体的には、質問に対するコンテキストの注目度分布を計算するために、トリガートークンを用いる。この分布に基づいて、コンテキストの長さの予算制約を満たす3つの異なるフィルタリング方法を提案する。NaturalQuestionsとASQAという2つの広く使われているデータセットを用いてQUITOを評価する。実験結果は、QUITOが様々なデータセットと下流のLLMにおいて、確立されたベースラインを大幅に上回ることを示し、その有効性を強調している。我々のコードはhttps://github.com/Wenshansilvia/attention_compressor。

要約(オリジナル)

In-context learning (ICL) capabilities are foundational to the success of large language models (LLMs). Recently, context compression has attracted growing interest since it can largely reduce reasoning complexities and computation costs of LLMs. In this paper, we introduce a novel Query-gUIded aTtention cOmpression (QUITO) method, which leverages attention of the question over the contexts to filter useless information. Specifically, we take a trigger token to calculate the attention distribution of the context in response to the question. Based on the distribution, we propose three different filtering methods to satisfy the budget constraints of the context length. We evaluate the QUITO using two widely-used datasets, namely, NaturalQuestions and ASQA. Experimental results demonstrate that QUITO significantly outperforms established baselines across various datasets and downstream LLMs, underscoring its effectiveness. Our code is available at https://github.com/Wenshansilvia/attention_compressor.

arxiv情報

著者 Wenshan Wang,Yihang Wang,Yixing Fan,Huaming Liao,Jiafeng Guo
発行日 2024-08-01 04:28:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク