Effective Theory of Transformers at Initialization

要約

【タイトル】初期化時のTransformerの有効理論

【要約】

– 論文では、広くて深いTransformer(マルチヘッド自己注意ブロックとマルチレイヤーパーセプトロンブロックを持つ残差ニューラルネットワーク)における順方向と逆方向の信号伝播の効果的な理論分析を行った。
– この解析により、これらのモデル用の初期化とトレーニングのハイパーパラメーターの特定の幅スケーリングが示唆された。
– その後、この提案を採用し、実用的な設定でビジョンと言語のTransformerをトレーニングした。

要約(オリジナル)

We perform an effective-theory analysis of forward-backward signal propagation in wide and deep Transformers, i.e., residual neural networks with multi-head self-attention blocks and multilayer perceptron blocks. This analysis suggests particular width scalings of initialization and training hyperparameters for these models. We then take up such suggestions, training Vision and Language Transformers in practical setups.

arxiv情報

著者 Emily Dinan,Sho Yaida,Susan Zhang
発行日 2023-04-04 18:00:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG, hep-th, stat.ML パーマリンク