You Need to Pay Better Attention: Rethinking the Mathematics of Attention Mechanism

要約

スケーリング ドット プロダクト アテンション (SDPA) は、多くの最新の深層学習モデルのバックボーンです。
非常に多用途であるため、元の定式化とほとんど変更を加えずに、自然言語、視覚、およびマルチモーダル領域で使用されています。
この論文では、注意メカニズムの数学的詳細を掘り下げて、現在の定式化が非効率である理由を説明します。
これらの非効率性を軽減するために 3 つの改善を提案し、それによって 3 つの強化された注意メカニズム (最適化、効率的、および超注意) を導入します。
最適化された注意と効率的な注意は、標準 SDPA よりも頭あたりの行列乗算がそれぞれ 1 つと 2 つ少なく、パラメーターがそれぞれ 25% と 50% 少ないですが、視覚タスクと自然言語タスクの両方で標準 SDPA と同様に実行されます。
これらは、SDPA が使用されるすべてのアプリケーションで使用でき、パフォーマンスを大幅に低下させることなく、より小さなモデル サイズとより高速なトレーニングと推論を提供します。
スーパー アテンションは、値に新しい線形変換を導入し、値を左から変換します。
標準の SDPA よりも、ヘッドあたりの行列乗算が 1 つ少なく、パラメーターが 25% 少ないにもかかわらず、視覚および自然言語タスクで標準 SPDA よりも最大 17% 優れたパフォーマンスを発揮します。
したがって、標準の SDPA よりも高速です。
スーパー アテンションは、ビジョン トランスフォーマーなど、アテンション レイヤーのコンテキスト長が固定されているアプリケーションに最適です。
数学的推論を提供することに加えて、MNIST、CIFAR100、ImageNet、IMDB Movie Reviews、Amazon Reviews データセットを含むいくつかのデータセット、およびニューラル機械翻訳用の Europarl と Anki 英語-スペイン語データセットを組み合わせて、提示されたアテンション メカニズムを評価します。

要約(オリジナル)

Scaled Dot Product Attention (SDPA) is the backbone of many modern deep-learning models. It is so versatile that it has been used in natural language, vision, and multi-modal domains with very little change compared to its original formulation. This paper discusses why the current formulation is inefficient by delving into the mathematical details of the attention mechanism. We propose three improvements to mitigate these inefficiencies, thereby, introducing three enhanced attention mechanisms: Optimised, Efficient, and Super Attention. Optimised and Efficient Attention have one and two matrix multiplications fewer per head, respectively, and 25% and 50% fewer parameters, respectively, than standard SDPA, but perform similarly to standard SDPA in both vision and natural language tasks. They can be used in all applications where SDPA is used while offering smaller model sizes and faster training and inference without noticeable loss in performance. Super Attention introduces a new linear transformation on the values, transforming them from the left. It outperforms standard SPDA on vision and natural language tasks by up to 17% while having one fewer matrix multiplication per head and 25% fewer parameters than standard SDPA. Consequently, it is also faster than standard SDPA. Super Attention is ideal in applications where the attention layer’s context length is fixed, such as Vision Transformers. In addition to providing mathematical reasoning, we evaluate the presented attention mechanisms on several datasets including MNIST, CIFAR100, ImageNet, IMDB Movie Reviews, and Amazon Reviews datasets, as well as combined Europarl and Anki English-Spanish datasets for neural machine translation.

arxiv情報

著者 Mehran Hosseini,Peyman Hosseini
発行日 2024-05-30 17:46:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 15A03, 15A04, 68T10, 68T50, cs.AI, cs.CL, cs.CV, cs.LG, I.2.10 パーマリンク