要約
検索拡張生成 (RAG) を使用すると、入力を外部情報で拡張することで、LLM の限られた知識を克服できます。
その結果、モデルへのコンテキスト入力が大幅に長くなり、デコード時間が遅くなり、ユーザーが応答を待つ必要がある時間に直接変換されます。
私たちは、効果的なコンテキスト圧縮方法である COCOM を提示することでこの課題に対処し、長いコンテキストを少数のコンテキスト エンベディングに削減し、生成時間を大幅に短縮します。
私たちの方法では、回答の品質を得るためにデコード時間を犠牲にして、さまざまな圧縮率を考慮しています。
以前の方法と比較して、COCOM では複数のコンテキストをより効率的に処理できるため、長い入力のデコード時間が大幅に短縮されます。
私たちの方法は、既存の効率的なコンテキスト圧縮方法と比較してより高いパフォーマンスを達成しながら、最大 5.69 $\times$ の高速化を実証します。
要約(オリジナル)
Retrieval-Augmented Generation (RAG) allows overcoming the limited knowledge of LLMs by extending the input with external information. As a consequence, the contextual inputs to the model become much longer which slows down decoding time directly translating to the time a user has to wait for an answer. We address this challenge by presenting COCOM, an effective context compression method, reducing long contexts to only a handful of Context Embeddings speeding up the generation time by a large margin. Our method allows for different compression rates trading off decoding time for answer quality. Compared to earlier methods, COCOM allows for handling multiple contexts more effectively, significantly reducing decoding time for long inputs. Our method demonstrates a speed-up of up to 5.69 $\times$ while achieving higher performance compared to existing efficient context compression methods.
arxiv情報
著者 | David Rau,Shuai Wang,Hervé Déjean,Stéphane Clinchant |
発行日 | 2024-07-12 13:30:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google