Deep Transformers without Shortcuts: Modifying Self-attention for Faithful Signal Propagation

要約

スキップ接続と正規化レイヤーは、ディープ ニューラル ネットワーク (DNN) のトレーニングに広く使用されている 2 つの標準的なアーキテクチャ コンポーネントを形成しますが、その正確な役割はよくわかっていません。
Deep Kernel Shaping などの最近のアプローチは、ワイド NN カーネル理論からの洞察を使用して、バニラ DNN (スキップや正規化のないネットワークとして定義します) での信号伝搬を改善することで、それらへの依存を減らす方向に進んでいます。
ただし、これらのアプローチは、トランスフォーマーに存在する自己注意レイヤーとは互換性がありません。トランスフォーマーのカーネルは、分析と制御が本質的により複雑です。
そして、疑問が残ります: 深いバニラ トランスフォーマーをトレーニングすることは可能ですか?
パラメーターの初期化、バイアス行列、位置に依存する再スケーリングの組み合わせを使用してバニラ トランスで忠実な信号伝搬を実現するいくつかのアプローチを設計することにより、この質問に肯定的に答えます。
私たちの方法は、位置エンコーディングや因果マスキングとの相互作用など、トランスフォーマーの信号伝搬に固有のさまざまな複雑さに対処します。
WikiText-103 と C4 での実験では、私たちのアプローチにより、正規化なしのディープ トランスフォーマーを標準の同等の速度でトレーニングし、ディープ バニラ トランスフォーマーを約 5 倍の反復後に標準のものと同じパフォーマンスに到達させることができます。

要約(オリジナル)

Skip connections and normalisation layers form two standard architectural components that are ubiquitous for the training of Deep Neural Networks (DNNs), but whose precise roles are poorly understood. Recent approaches such as Deep Kernel Shaping have made progress towards reducing our reliance on them, using insights from wide NN kernel theory to improve signal propagation in vanilla DNNs (which we define as networks without skips or normalisation). However, these approaches are incompatible with the self-attention layers present in transformers, whose kernels are intrinsically more complicated to analyse and control. And so the question remains: is it possible to train deep vanilla transformers? We answer this question in the affirmative by designing several approaches that use combinations of parameter initialisations, bias matrices and location-dependent rescaling to achieve faithful signal propagation in vanilla transformers. Our methods address various intricacies specific to signal propagation in transformers, including the interaction with positional encoding and causal masking. In experiments on WikiText-103 and C4, our approaches enable deep transformers without normalisation to train at speeds matching their standard counterparts, and deep vanilla transformers to reach the same performance as standard ones after about 5 times more iterations.

arxiv情報

著者 Bobby He,James Martens,Guodong Zhang,Aleksandar Botev,Andrew Brock,Samuel L Smith,Yee Whye Teh
発行日 2023-02-20 21:26:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク