要約
タイトル:AttMEMO: Big Memory SystemsにおけるMemoizationによるTransformersの加速
要約:
– Transformerモデルは優れた推論精度と推論スループットのために人気がありますが、計算が多く推論時間が長くなるという問題があります。
– 既存のTransformer推論の加速手法は、Transformerアーキテクチャの変更や特殊なハードウェアの必要性などの制限があります。
– 本論文では、memoizationを使用して制限なしでTransformerのself-attentionメカニズムを加速する機会を特定しました。
– 推論シーケンス全体にわたる注意計算の類似性が豊富であるという独自の観察から、出現しているbig memory systemを活用したmemoizationデータベースを構築しました。
– 計算の類似性を特定するために意味的に類似した入力を見つけるための新しい埋め込み技術を導入しました。
– メモリコピーと不必要なオーバーヘッドを避けるためのメモリマッピングや選択的なメモ化などの一連の技術も導入しました。
– 推論精度の明示的な損失がほとんどなく、平均で22%の推論レイテンシー削減(最大で68%)を実現します。
要約(オリジナル)
Transformer models gain popularity because of their superior inference accuracy and inference throughput. However, the transformer is computation-intensive, causing a long inference time. The existing works on transformer inference acceleration have limitations caused by either the modification of transformer architectures or the need of specialized hardware. In this paper, we identify the opportunities of using memoization to accelerate the self-attention mechanism in transformers without the above limitations. Built upon a unique observation that there is rich similarity in attention computation across inference sequences, we build a memoization database that leverages the emerging big memory system. We introduce a novel embedding technique to find semantically similar inputs to identify computation similarity. We also introduce a series of techniques such as memory mapping and selective memoization to avoid memory copy and unnecessary overhead. We enable 22% inference-latency reduction on average (up to 68%) with negligible loss in inference accuracy.
arxiv情報
著者 | Yuan Feng,Hyeran Jeon,Filip Blagojevic,Cyril Guyot,Qing Li,Dong Li |
発行日 | 2023-04-17 20:06:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI