XC-Cache: Cross-Attending to Cached Context for Efficient LLM Inference

要約

インコンテキスト学習(ICL)アプローチは、通常、プロンプトを活用して、デコーダのみの言語モデル生成を参照情報に条件付ける。コンテキストのジャストインタイムの処理は、自己アテンション操作の2次コストのために非効率的であり、キャッシュが望ましい。しかし、変換器の状態をキャッシュすることは、モデルパラメータとほぼ同じ容量を簡単に必要とする。適切なコンテキストが事前にわからない場合、ICLのキャッシュは困難である。この研究では、エンコーダとデコーダのアーキテクチャにヒントを得て、プロンプトなしで参照テキストを条件生成するためにクロスアテンションを使用するモデルを導入することにより、これらの制限に対処する。より正確には、事前に訓練されたデコーダのみのモデルを活用し、少数の追加層のみを訓練する。我々は、Question-Answering (QA)をテストベッドとして用いて、我々のモデルの条件生成能力を評価し、ICLを凌駕し、微調整されたプロンプトLLMに匹敵し、標準的なKVキャッシングと比較してスペースフットプリントを2桁劇的に削減することを確認した。

要約(オリジナル)

In-context learning (ICL) approaches typically leverage prompting to condition decoder-only language model generation on reference information. Just-in-time processing of a context is inefficient due to the quadratic cost of self-attention operations, and caching is desirable. However, caching transformer states can easily require almost as much space as the model parameters. When the right context isn’t known in advance, caching ICL can be challenging. This work addresses these limitations by introducing models that, inspired by the encoder-decoder architecture, use cross-attention to condition generation on reference text without the prompt. More precisely, we leverage pre-trained decoder-only models and only train a small number of added layers. We use Question-Answering (QA) as a testbed to evaluate the ability of our models to perform conditional generation and observe that they outperform ICL, are comparable to fine-tuned prompted LLMs, and drastically reduce the space footprint relative to standard KV caching by two orders of magnitude.

arxiv情報

著者 João Monteiro,Étienne Marcotte,Pierre-André Noël,Valentina Zantedeschi,David Vázquez,Nicolas Chapados,Christopher Pal,Perouz Taslakian
発行日 2024-11-01 14:56:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク