BranchNorm: Robustly Scaling Extremely Deep Transformers

要約

タイトル:BranchNorm:非常に深いTransformersを堅牢にスケーリングする

要約:

– 最近、DeepNormはTransformersを非常に深く(つまり、1000層)スケーリングして、深いスケーリングの有望な可能性を明らかにしています。
– 深いモデルのトレーニングを安定化するために、DeepNorm(Wang et al.、2022)はモデル更新を定数値に制限しようと試みています。
– この制約を適用することは、モデルトレーニングの初期段階に利益をもたらすかもしれませんが、トレーニングプロセス全体で未訓練のモデルにつながる可能性があります。
– 本論文では、トレーニング期間に合わせてTransformerの非残差ブランチを動的に再スケーリングするBranchNormを提案しています。
– BranchNormは、初期段階のスムーズな勾配ノルムでトレーニングを理論的に安定化するだけでなく、後続のトレーニング段階でのより良い収束を促進します。
– 複数の翻訳タスクの実験結果から、BranchNormはトレーニングの安定性と収束性能のバランスを改善します。

要約(オリジナル)

Recently, DeepNorm scales Transformers into extremely deep (i.e., 1000 layers) and reveals the promising potential of deep scaling. To stabilize the training of deep models, DeepNorm (Wang et al., 2022) attempts to constrain the model update to a constant value. Although applying such a constraint can benefit the early stage of model training, it may lead to undertrained models during the whole training procedure. In this paper, we propose BranchNorm, which dynamically rescales the non-residual branch of Transformer in accordance with the training period. BranchNorm not only theoretically stabilizes the training with smooth gradient norms at the early stage, but also encourages better convergence in the subsequent training stage. Experiment results on multiple translation tasks demonstrate that BranchNorm achieves a better trade-off between training stability and converge performance.

arxiv情報

著者 Yijin Liu,Xianfeng Zeng,Fandong Meng,Jie Zhou
発行日 2023-05-04 12:46:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク