ICPC: In-context Prompt Compression with Faster Inference

要約

近年の大規模言語モデル(LLM)の成功にもかかわらず、LLMの入力サイズは固定であるため、長いプロンプトをLLMに与えることは依然として困難である。解決策として、プロンプト内の冗長なトークンを削除することにより、プロンプト圧縮が有望な解決策となる。しかし、既存の研究でLLMを使用することは、追加の計算リソースを必要とし、メモリのオーバーヘッドにつながる。そこで我々は、プロンプトの長さを適応的に短縮する、新規かつスケーラブルなプロンプト圧縮手法であるICPC(In-context Prompt Compression)を提案する。ICPCの主なアイデアは、エンコーダを用いてプロンプトに現れる各単語の確率を計算し、情報関数を通して各単語が持つ情報を計算することである。経験的に、ICPCは様々なカテゴリの長文を効果的に圧縮することができ、その結果、様々なタイプのNLPタスクにおいてより良い性能と速度を達成できることを実証する。

要約(オリジナル)

Despite the recent success of Large Language Models (LLMs), it remains challenging to feed LLMs with long prompts due to the fixed size of LLM inputs. As a remedy, prompt compression becomes a promising solution by removing redundant tokens in the prompt. However, using LLM in the existing works requires additional computation resources and leads to memory overheads. To address it, we propose ICPC (In-context Prompt Compression), a novel and scalable prompt compression method that adaptively reduces the prompt length. The key idea of ICPC is to calculate the probability of each word appearing in the prompt using encoders and calculate information carried by each word through the information function, which effectively reduces the information loss during prompt compression and increases the speed of compression. Empirically, we demonstrate that ICPC can effectively compress long texts of different categories and thus achieve better performance and speed on different types of NLP tasks.

arxiv情報

著者 Ziyang Yu,Yuyu Liu
発行日 2025-01-03 03:46:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク