Understanding the Difficulty of Training Transformers

要約

トランスフォーマーは、多くの NLP タスクで効果的であることが証明されています。
ただし、トランスフォーマーのトレーニングには、最先端のオプティマイザーと学習率スケジューラーを慎重に設計するという重要な努力が必要です (たとえば、従来の SGD はトランスフォーマーを効果的にトレーニングできません)。
ここでの私たちの目的は、$\textit{Transformer トレーニングを複雑にするもの}$ を経験的および理論的観点の両方から理解することです。
私たちの分析により、不均衡な勾配がトレーニングの不安定性の根本原因ではないことが明らかになりました。
代わりに、トレーニングに大きく影響する増幅効果を特定します。多層 Transformer モデルの各層では、その残差ブランチへの依存度が高いとトレーニングが不安定になります。これは、小さなパラメーターの摂動 (パラメーターの更新など) が増幅され、重大な結果が生じるためです。
モデル出力の乱れ。
しかし、依存性が軽いとモデルの可能性が制限され、トレーニングされたモデルが劣悪なものになることが観察されています。
私たちの分析からインスピレーションを得て、初期段階のトレーニングを安定させ、後期段階でその可能性を最大限に引き出すために、Admin ($\textbf{Ad}$aptive $\textbf{m}$odel $\textbf{in}$itialization) を提案します。

広範な実験により、Admin の方が安定しており、収束が速く、パフォーマンスが向上することが示されています。
実装は https://github.com/LiyuanLucasLiu/Transforemr-Clinic でリリースされています。

要約(オリジナル)

Transformers have proved effective in many NLP tasks. However, their training requires non-trivial efforts regarding designing cutting-edge optimizers and learning rate schedulers carefully (e.g., conventional SGD fails to train Transformers effectively). Our objective here is to understand $\textit{what complicates Transformer training}$ from both empirical and theoretical perspectives. Our analysis reveals that unbalanced gradients are not the root cause of the instability of training. Instead, we identify an amplification effect that influences training substantially — for each layer in a multi-layer Transformer model, heavy dependency on its residual branch makes training unstable, since it amplifies small parameter perturbations (e.g., parameter updates) and results in significant disturbances in the model output. Yet we observe that a light dependency limits the model potential and leads to inferior trained models. Inspired by our analysis, we propose Admin ($\textbf{Ad}$aptive $\textbf{m}$odel $\textbf{in}$itialization) to stabilize stabilize the early stage’s training and unleash its full potential in the late stage. Extensive experiments show that Admin is more stable, converges faster, and leads to better performance. Implementations are released at: https://github.com/LiyuanLucasLiu/Transforemr-Clinic.

arxiv情報

著者 Liyuan Liu,Xiaodong Liu,Jianfeng Gao,Weizhu Chen,Jiawei Han
発行日 2023-10-01 18:34:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク