DeepCrossAttention: Supercharging Transformer Residual Connections

要約

トランスネットワークは、多様なドメイン全体で顕著な成功を収めており、残留接続を含むさまざまな建築革新を活用しています。
ただし、以前のレイヤーの出力を単に合計する従来の残留接続は、重要な情報を希釈する可能性があります。
この作業では、トランスの残留学習を強化するアプローチであるDeepCrossattention(DCA)が導入されています。
DCAは、学習可能な入力依存の重みを使用して、レイヤー出力を動的に組み合わせて、モデルが以前のレイヤーのいずれかで最も関連性の高い情報に選択的に集中できるようにします。
さらに、DCAには深さごとの横断的な反対が組み込まれており、さまざまな深さの層間のより豊かな相互作用が可能になります。
私たちの言語モデリング実験は、DCAが特定のトレーニング時間の困惑を改善することを示しています。
さらに、DCAは、無視できる数のパラメーターを追加しながら、最大3倍高速な同じモデル品質を取得します。
理論分析により、DCAは、集団層の比率が周囲の次元の比率が重要なしきい値を下回ると、精度とモデルサイズの間の改善されたトレードオフを提供することを確認します。

要約(オリジナル)

Transformer networks have achieved remarkable success across diverse domains, leveraging a variety of architectural innovations, including residual connections. However, traditional residual connections, which simply sum the outputs of previous layers, can dilute crucial information. This work introduces DeepCrossAttention (DCA), an approach that enhances residual learning in transformers. DCA employs learnable, input-dependent weights to dynamically combine layer outputs, enabling the model to selectively focus on the most relevant information in any of the previous layers. Furthermore, DCA incorporates depth-wise cross-attention, allowing for richer interactions between layers at different depths. Our language modeling experiments show that DCA achieves improved perplexity for a given training time. Moreover, DCA obtains the same model quality up to 3x faster while adding a negligible number of parameters. Theoretical analysis confirms that DCA provides an improved trade-off between accuracy and model size when the ratio of collective layer ranks to the ambient dimension falls below a critical threshold.

arxiv情報

著者 Mike Heddes,Adel Javanmard,Kyriakos Axiotis,Gang Fu,MohammadHossein Bateni,Vahab Mirrokni
発行日 2025-02-10 18:58:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク