LLoCO: Learning Long Contexts Offline

要約

大規模言語モデル (LLM) にとって、長いコンテキストの処理は、セルフ アテンション メカニズムの二次計算とメモリのオーバーヘッドと、生成中の相当な KV キャッシュ サイズのため、依然として課題です。
私たちは、コンテキスト圧縮とドメイン内のパラメータ効率の高い微調整を通じてオフラインでコンテキストを学習することで、この問題に対処する新しいアプローチを提案します。
私たちの方法により、LLM は元のコンテキストの簡潔な表現を作成し、関連情報を効率的に取得して質問に正確に答えることができます。
LoRA を使用したコンテキスト圧縮、取得、パラメータ効率の高い微調整を組み合わせた手法である LLoCO を紹介します。
私たちのアプローチは、4k トークン LLaMA2-7B モデルの有効なコンテキスト ウィンドウを拡張し、最大 128k トークンを処理します。
いくつかのロングコンテキストの質問応答データセットでアプローチを評価し、LLoCO が推論中に使用するトークンの量が 30 倍 $30 少ないにもかかわらず、インコンテキスト学習を大幅に上回るパフォーマンスを示しました。
LLoCO は最大 7.62 倍の高速化を実現し、長い文書の質問応答のコストを大幅に削減するため、効率的な長いコンテキスト処理のための有望なソリューションとなります。
私たちのコードは https://github.com/jeffreysijuntan/lloco で公開されています。

要約(オリジナル)

Processing long contexts remains a challenge for large language models (LLMs) due to the quadratic computational and memory overhead of the self-attention mechanism and the substantial KV cache sizes during generation. We propose a novel approach to address this problem by learning contexts offline through context compression and in-domain parameter-efficient finetuning. Our method enables an LLM to create a concise representation of the original context and efficiently retrieve relevant information to answer questions accurately. We introduce LLoCO, a technique that combines context compression, retrieval, and parameter-efficient finetuning using LoRA. Our approach extends the effective context window of a 4k token LLaMA2-7B model to handle up to 128k tokens. We evaluate our approach on several long-context question-answering datasets, demonstrating that LLoCO significantly outperforms in-context learning while using $30\times$ fewer tokens during inference. LLoCO achieves up to $7.62\times$ speed-up and substantially reduces the cost of long document question answering, making it a promising solution for efficient long context processing. Our code is publicly available at https://github.com/jeffreysijuntan/lloco.

arxiv情報

著者 Sijun Tan,Xiuyu Li,Shishir Patil,Ziyang Wu,Tianjun Zhang,Kurt Keutzer,Joseph E. Gonzalez,Raluca Ada Popa
発行日 2024-04-11 17:57:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク