要約
生成大規模言語モデル (LLM) は、数多くの新たな可能性を切り開いてきましたが、大量の計算要件があるため、ユビキタスでの使用は依然として困難です。
最も有用なアプリケーションの中には、一度に大量のサンプルを処理し、長いコンテキストを使用する必要があり、どちらもモデルのメモリ通信負荷を大幅に増加させます。
キャッシュされた履歴の選択的フェッチを通じてアテンション ブロック内のメモリ帯域幅要件を削減することにより、LLM の推論スループットを向上させる手法である SparQ アテンションを導入します。
私たちが提案する手法は、事前トレーニングの設定を変更したり、追加の微調整を必要とせずに、推論中に既製の LLM に直接適用できます。
幅広いダウンストリーム タスクで Llama 2 および Pythia モデルを評価することで、SparQ Attend が精度を損なうことなくアテンション メモリ帯域幅要件を最大 8 分の 1 に削減できる方法を示します。
要約(オリジナル)
Generative large language models (LLMs) have opened up numerous novel possibilities, but due to their significant computational requirements their ubiquitous use remains challenging. Some of the most useful applications require processing large numbers of samples at a time and using long contexts, both significantly increasing the memory communication load of the models. We introduce SparQ Attention, a technique for increasing the inference throughput of LLMs by reducing the memory bandwidth requirements within the attention blocks through selective fetching of the cached history. Our proposed technique can be applied directly to off-the-shelf LLMs during inference, without requiring any modification to the pre-training setup or additional fine-tuning. We show how SparQ Attention can decrease the attention memory bandwidth requirements up to eight times without any loss in accuracy by evaluating Llama 2 and Pythia models on a wide range of downstream tasks.
arxiv情報
著者 | Luka Ribar,Ivan Chelombiev,Luke Hudlass-Galley,Charlie Blake,Carlo Luschi,Douglas Orr |
発行日 | 2024-02-22 16:07:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google