LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression

要約

長いコンテキストのシナリオでは、大規模言語モデル (LLM) は、高い計算コスト/財務コスト、長い遅延、および劣ったパフォーマンスという 3 つの主な課題に直面します。
いくつかの研究では、LLM のパフォーマンスが、入力プロンプト内の重要な情報 (質問に関連する) の密度と位置の両方に依存することが明らかになりました。
これらの発見に触発されて、私たちは 3 つの課題に同時に対処するために、重要な情報に対する LLM の認識を改善するための迅速な圧縮を目的とした LongLLMLingua を提案します。
単一/複数ドキュメントの QA、少数ショット学習、要約、合成タスク、コード補完など、広範囲にわたる長いコンテキストのシナリオで評価を実施します。
実験結果は、LongLLMLingua 圧縮プロンプトがはるかに低いコストでより高いパフォーマンスを実現できることを示しています。
エンドツーエンド システムの遅延も短縮されます。
たとえば、NaturalQuestions ベンチマークでは、LongLLMLingua は、GPT-3.5-Turbo への入力として最大 4 倍少ないトークンを使用して、元のプロンプトと比較してパフォーマンスが最大 17.1% 向上しました。
LongBench ベンチマークと ZeroScrolls ベンチマークから、それぞれ 1,000 サンプルあたり 28.5 ドルと 27.4 ドルのコスト削減が得られます。
さらに、約 10,000 トークンのプロンプトを 2 ~ 10 倍の圧縮率で圧縮すると、LongLLMLingua はエンドツーエンドのレイテンシーを 1.4 ~ 3.8 倍高速化できます。
私たちのコードは https://aka.ms/LLMLingua で入手できます。

要約(オリジナル)

In long context scenarios, large language models (LLMs) face three main challenges: higher computational/financial cost, longer latency, and inferior performance. Some studies reveal that the performance of LLMs depends on both the density and the position of the key information (question relevant) in the input prompt. Inspired by these findings, we propose LongLLMLingua for prompt compression towards improving LLMs’ perception of the key information to simultaneously address the three challenges. We conduct evaluation on a wide range of long context scenarios including single-/multi-document QA, few-shot learning, summarization, synthetic tasks, and code completion. The experimental results show that LongLLMLingua compressed prompt can derive higher performance with much less cost. The latency of the end-to-end system is also reduced. For example, on NaturalQuestions benchmark, LongLLMLingua gains a performance boost of up to 17.1% over the original prompt with ~4x fewer tokens as input to GPT-3.5-Turbo. It can derive cost savings of \$28.5 and \$27.4 per 1,000 samples from the LongBench and ZeroScrolls benchmark, respectively. Additionally, when compressing prompts of ~10k tokens at a compression rate of 2x-10x, LongLLMLingua can speed up the end-to-end latency by 1.4x-3.8x. Our code is available at https://aka.ms/LLMLingua.

arxiv情報

著者 Huiqiang Jiang,Qianhui Wu,Xufang Luo,Dongsheng Li,Chin-Yew Lin,Yuqing Yang,Lili Qiu
発行日 2023-10-10 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク