From Reading to Compressing: Exploring the Multi-document Reader for Prompt Compression

要約

大規模言語モデル (LLM) は、さまざまなタスクに対して高度なプロンプト技術を使用して、大幅なパフォーマンスの向上を達成しました。
ただし、プロンプトの長さが長くなると、計算コストが高くなり、重要な情報が見えにくくなることがよくあります。
これらの問題を軽減するために即時圧縮が提案されていますが、(i) グローバル コンテキストのキャプチャ、(ii) コンプレッサーの効果的なトレーニングという点で課題に直面しています。
これらの課題に取り組むために、プロンプト内の重要な情報を識別するために Fusion-in-Decoder (FiD) アーキテクチャを利用した、Reading To Compressing (R2C) という新しいプロンプト圧縮方法を導入しました。
具体的には、FiD のクロスアテンション スコアを使用して、プロンプトから重要な部分と文を識別します。
R2C は、コンプレッサーをトレーニングするための疑似ラベルの必要性を回避しながら、セマンティックな一貫性を損なうことなくグローバル コンテキストを効果的にキャプチャします。
経験的な結果は、R2C が主要なコンテキストを保持し、ドメイン外評価で LLM のパフォーマンスを 6% 向上させながら、プロンプトの長さを 80% 削減することを示しています。

要約(オリジナル)

Large language models (LLMs) have achieved significant performance gains using advanced prompting techniques over various tasks. However, the increasing length of prompts leads to high computational costs and often obscures crucial information. Prompt compression has been proposed to alleviate these issues, but it faces challenges in (i) capturing the global context and (ii) training the compressor effectively. To tackle these challenges, we introduce a novel prompt compression method, namely Reading To Compressing (R2C), utilizing the Fusion-in-Decoder (FiD) architecture to identify the important information in the prompt. Specifically, the cross-attention scores of the FiD are used to discern essential chunks and sentences from the prompt. R2C effectively captures the global context without compromising semantic consistency while detouring the necessity of pseudo-labels for training the compressor. Empirical results show that R2C retains key contexts, enhancing the LLM performance by 6% in out-of-domain evaluations while reducing the prompt length by 80%.

arxiv情報

著者 Eunseong Choi,Sunkyung Lee,Minjin Choi,June Park,Jongwuk Lee
発行日 2024-12-31 07:04:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク