要約
大規模言語モデル (LLM) は主にデコーダーのみのトランスフォーマー アーキテクチャを採用しているため、コンテキスト情報を提供し、冗長な計算を回避するために、履歴トークンのキー/値情報を保持する必要があります。
ただし、これらの LLM のサイズとパラメータのボリュームが大きいため、大規模な GPU メモリが必要になります。
このメモリ需要は入力テキストの長さに応じて増加するため、情報の保存と処理のより効率的な方法が緊急に必要になります。
この研究では、革新的なアンカーベースのセルフアテンション ネットワーク (AnSAN) とアンカーベースの推論戦略を利用するアンカーベース LLM (AnLLM) を紹介します。
このアプローチにより、LLM はシーケンス情報をアンカー トークンに圧縮できるようになり、キー/値のキャッシュが削減され、推論効率が向上します。
実験の結果、AnLLM はキー/値キャッシュを最大 99% 削減し、推論を最大 3.5 倍高速化することで、同等の精度を維持できることがわかりました。
精度に若干の妥協はあるものの、AnLLM は計算効率とリソース利用率を大幅に向上させ、LLM のコンテキストにおけるアンカーベースのアテンション アプローチが実際のアプリケーションでのリアルタイム推論に利用できる可能性を示しています。
要約(オリジナル)
Large language models (LLMs) predominantly employ decoder-only transformer architectures, necessitating the retention of keys/values information for historical tokens to provide contextual information and avoid redundant computation. However, the substantial size and parameter volume of these LLMs require massive GPU memory. This memory demand increases with the length of the input text, leading to an urgent need for more efficient methods of information storage and processing. This study introduces the Anchor-based LLM (AnLLM), which utilizes an innovative anchor-based self-attention network (AnSAN) and also an anchor-based inference strategy. This approach enables LLMs to compress sequence information into an anchor token, reducing the keys/values cache and enhancing inference efficiency. Experiments show that the AnLLM maintains comparable accuracy with up to 99% keys/values cache reduction and up to 3.5 times faster inference. Despite a minor compromise in accuracy, the AnLLM significantly improves computational efficiency and resource utilization, demonstrating the potential of the anchor-based attention approach in the context of LLMs for real-time inference in practical applications.
arxiv情報
著者 | Jianhui Pang,Fanghua Ye,Derek F. Wong,Longyue Wang |
発行日 | 2024-02-12 12:48:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google