500xCompressor: Generalized Prompt Compression for Large Language Models

要約

迅速な圧縮は、推論速度の向上、コストの削減、ユーザー エクスペリエンスの向上にとって非常に重要です。
ただし、現在の方法は、低い圧縮率や評価中のデータ漏洩の可能性などの課題に直面しています。
これらの問題に対処するために、私たちは広範な自然言語コンテキストを最小 1 つの特別なトークンに圧縮する方法である 500xCompressor を提案します。
500xCompressor では、約 0.3% の追加パラメータが導入され、6 倍から 480 倍の範囲の圧縮率が実現されます。
これは、あらゆるテキストを圧縮し、さまざまなタイプの質問に答えるように設計されており、微調整を必要とせずに元の大規模言語モデル (LLM) で利用できます。
最初に、500xCompressor は Arxiv Corpus で事前トレーニングされ、続いて ArxivQA データセットで微調整され、その後、厳密には目に見えない古典的な質問応答 (QA) データセットで評価されました。
結果は、非圧縮プロンプトを使用した場合と比較して、LLM がその機能の 62.26 ~ 72.89% を保持していることを示しています。
この調査では、すべての圧縮トークンが均等に利用されるわけではないこと、および K V 値が高い圧縮率で情報を保存する際に埋め込みよりも大きな利点があることも示しています。
自然言語プロンプトの圧縮性は、きめの細かい複雑な情報であっても、将来のアプリケーションや新しい LLM 言語の開発に関するさらなる研究に有望な可能性があることを示唆しています。

要約(オリジナル)

Prompt compression is crucial for enhancing inference speed, reducing costs, and improving user experience. However, current methods face challenges such as low compression ratios and potential data leakage during evaluation. To address these issues, we propose 500xCompressor, a method that compresses extensive natural language contexts into a minimum of one single special token. The 500xCompressor introduces approximately 0.3% additional parameters and achieves compression ratios ranging from 6x to 480x. It is designed to compress any text, answer various types of questions, and could be utilized by the original large language model (LLM) without requiring fine-tuning. Initially, 500xCompressor was pretrained on the Arxiv Corpus, followed by fine-tuning on the ArxivQA dataset, and subsequently evaluated on strictly unseen and classical question answering (QA) datasets. The results demonstrate that the LLM retained 62.26-72.89% of its capabilities compared to using non-compressed prompts. This study also shows that not all the compressed tokens are equally utilized and that K V values have significant advantages over embeddings in preserving information at high compression ratios. The highly compressive nature of natural language prompts, even for fine-grained complex information, suggests promising potential for future applications and further research into developing a new LLM language.

arxiv情報

著者 Zongqian Li,Yixuan Su,Nigel Collier
発行日 2024-08-06 10:51:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク