要約
当初は機械翻訳モデルとして導入された Transformer アーキテクチャは、現在では現代の深層学習アーキテクチャの基盤となり、コンピュータ ビジョンから自然言語処理に至るまで、幅広い分野で応用されています。
現在、ますます複雑化するタスクに取り組むために、Transformer ベースのモデルは巨大なサイズに拡張されており、ますます大規模なトレーニング データセットと持続不可能な量のコンピューティング リソースが必要になっています。
したがって、Transformer の普遍的な性質とその中核コンポーネントである注意メカニズムは、効率研究の主なターゲットとなります。
この研究では、Transformer アーキテクチャによって導入されたセルフアテンション メカニズムの代替互換機能を提案します。
この互換性関数は、従来のスケーリングされたドット積アテンションの学習された表現における重複を利用し、ペアごとの係数を持つ対称的なドット積アテンションをもたらします。
BERT のようなモデルの事前トレーニングに適用すると、この新しい対称アテンション メカニズムは、従来の実装の 78.74 に対して GLUE ベンチマークで 79.36 のスコアに達し、トレーニング可能なパラメーターの数が 6% 削減され、
収束するまでに必要なトレーニング ステップ数が半分になります。
要約(オリジナル)
Initially introduced as a machine translation model, the Transformer architecture has now become the foundation for modern deep learning architecture, with applications in a wide range of fields, from computer vision to natural language processing. Nowadays, to tackle increasingly more complex tasks, Transformer-based models are stretched to enormous sizes, requiring increasingly larger training datasets, and unsustainable amount of compute resources. The ubiquitous nature of the Transformer and its core component, the attention mechanism, are thus prime targets for efficiency research. In this work, we propose an alternative compatibility function for the self-attention mechanism introduced by the Transformer architecture. This compatibility function exploits an overlap in the learned representation of the traditional scaled dot-product attention, leading to a symmetric with pairwise coefficient dot-product attention. When applied to the pre-training of BERT-like models, this new symmetric attention mechanism reaches a score of 79.36 on the GLUE benchmark against 78.74 for the traditional implementation, leads to a reduction of 6% in the number of trainable parameters, and reduces the number of training steps required before convergence by half.
arxiv情報
| 著者 | Martin Courtois,Malte Ostendorff,Leonhard Hennig,Georg Rehm | 
| 発行日 | 2024-06-10 15:24:15+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
