Anchor-based Large Language Models

要約

大規模言語モデル (LLM) は主にデコーダーのみのトランスフォーマー アーキテクチャを採用しているため、コンテキスト情報を提供し、冗長な計算を回避するために、履歴トークンのキー/値情報を保持する必要があります。
ただし、これらの LLM のサイズとパラメータのボリュームが大きいため、大規模な GPU メモリが必要になります。
このメモリ需要は入力テキストの長さに応じて増加するため、情報の保存と処理のより効率的な方法が緊急に必要になります。
この研究では、革新的なアンカーベースのセルフアテンション ネットワーク (AnSAN) とアンカーベースの推論戦略を利用するアンカーベース LLM (AnLLM) を紹介します。
このアプローチにより、LLM はシーケンス情報をアンカー トークンに圧縮できるようになり、キー/値のキャッシュが削減され、推論効率が向上します。
質問応答ベンチマークの実験では、AnLLM が同様の精度レベルを維持しながら、最大 99% のキー/値キャッシュ削減と最大 3.5 倍の高速推論を達成していることが明らかになりました。
精度には多少の妥協はありますが、AnSAN 技術を採用した AnLLM のリソース利用率と計算効率の大幅な強化は、実用的な LLM アプリケーションの可能性を強調しています。

要約(オリジナル)

Large language models (LLMs) predominantly employ decoder-only transformer architectures, necessitating the retention of keys/values information for historical tokens to provide contextual information and avoid redundant computation. However, the substantial size and parameter volume of these LLMs require massive GPU memory. This memory demand increases with the length of the input text, leading to an urgent need for more efficient methods of information storage and processing. This study introduces Anchor-based LLMs (AnLLMs), which utilize an innovative anchor-based self-attention network (AnSAN) and also an anchor-based inference strategy. This approach enables LLMs to compress sequence information into an anchor token, reducing the keys/values cache and enhancing inference efficiency. Experiments on question-answering benchmarks reveal that AnLLMs maintain similar accuracy levels while achieving up to 99% keys/values cache reduction and up to 3.5 times faster inference. Despite a minor compromise in accuracy, the substantial enhancements of AnLLMs employing the AnSAN technique in resource utilization and computational efficiency underscore their potential for practical LLM applications.

arxiv情報

著者 Jianhui Pang,Fanghua Ye,Derek F. Wong,Longyue Wang
発行日 2024-02-16 16:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク