Prompt Compression with Context-Aware Sentence Encoding for Fast and Improved LLM Inference

要約

大規模言語モデル (LLM) は、LLM が与えられた質問に答えるために役立つ情報を確実に保持しながら、コンテキストの長さを圧縮して計算コストを削減することに焦点を当てた、新しい研究の流れを引き起こしました。
トークンベースの削除方法は、この方向での最も顕著なアプローチの 1 つですが、特に高圧縮率下では、中間トークンの削除によって引き起こされるコンテキストのセマンティクスが失われるリスクがあり、同時に計算効率の面でも課題に直面します。
この研究では、文レベルのプロンプト圧縮技術である文脈認識型プロンプト圧縮 (CPC) を提案します。その主な革新は、特定の質問の各文の関連性スコアを提供する新しい文脈認識型文エンコーダです。
このエンコーダーをトレーニングするために、質問、肯定的な文、および否定的なペアで構成される新しいデータセットを生成します。ここで、肯定的な文は質問に関連する文であり、否定的な文は無関係な文脈文です。
コンテキストを意識した文表現を学習するために、対照的な設定でエンコーダーをトレーニングします。
私たちの方法は、ベンチマーク データセットのプロンプト圧縮に関する以前の研究を大幅に上回り、最良のトークンレベルの圧縮方法と比較して推論が最大 10.93 倍高速です。
また、ほとんどのベンチマークで、より短い長さの制約に対する改善が見られ、より短いコンテキストで関連情報を圧縮する際の、提案されたソリューションの有効性が示されています。
最後に、迅速な再現とさらなる開発のためにコードとデータセットをリリースします (https://github.com/Workday/cpc)。

要約(オリジナル)

Large language models (LLMs) have triggered a new stream of research focusing on compressing the context length to reduce the computational cost while ensuring the retention of helpful information for LLMs to answer the given question. Token-based removal methods are one of the most prominent approaches in this direction, but risk losing the semantics of the context caused by intermediate token removal, especially under high compression ratios, while also facing challenges in computational efficiency. In this work, we propose context-aware prompt compression (CPC), a sentence-level prompt compression technique where its key innovation is a novel context-aware sentence encoder that provides a relevance score for each sentence for a given question. To train this encoder, we generate a new dataset consisting of questions, positives, and negative pairs where positives are sentences relevant to the question, while negatives are irrelevant context sentences. We train the encoder in a contrastive setup to learn context-aware sentence representations. Our method considerably outperforms prior works on prompt compression on benchmark datasets and is up to 10.93x faster at inference compared to the best token-level compression method. We also find better improvement for shorter length constraints in most benchmarks, showing the effectiveness of our proposed solution in the compression of relevant information in a shorter context. Finally, we release the code and the dataset for quick reproducibility and further development: https://github.com/Workday/cpc.

arxiv情報

著者 Barys Liskavets,Maxim Ushakov,Shuvendu Roy,Mark Klibanov,Ali Etemad,Shane Luke
発行日 2024-09-04 10:20:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク