Small-scale proxies for large-scale Transformer training instabilities

要約

大規模な Transformer ベースのモデルをトレーニングしたチームは、小規模なスケールで同じハイパーパラメータを使用してトレーニングした場合には現れなかった、大規模なトレーニングの不安定性を報告しています。
このような不安定性の原因は科学的に興味深いものですが、それらを再現するために必要なリソースの量により、調査が困難になっています。
この研究では、より小規模なスケールでトレーニングの安定性と不安定性を再現および研究する方法を模索します。
まず、以前の研究で説明したトレーニングの不安定性の 2 つの原因に焦点を当てます。それは、注目層におけるロジットの成長 (Dehghani et al., 2023) と、対数確率からの出力ロジットの発散 (Chowdhery et al., 2022) です。
学習率とスケール間の損失の関係を測定することにより、これらの不安定性は高い学習率でトレーニングする場合の小規模モデルでも現れること、および以前に大規模なスケールで採用された緩和策がこの領域でも同様に効果的であることを示します。
このため、他の既知のオプティマイザーとモデル介入が学習率の変化に対する最終損失の感度にどの程度影響を与えるかを調査する必要があります。
この目的を達成するために、私たちはウォームアップ、重み減衰、$\mu$Param (Yang et al., 2022) などの手法を研究し、手法を組み合わせて、数桁の学習率にわたって同様の損失を達成する小規模モデルをトレーニングします。
変化。
最後に、調査の締めくくりとして、モデルの活性化と勾配ノルムのスケーリング動作を調べることで、不安定性が現れる前に予測できる 2 つのケースを研究します。

要約(オリジナル)

Teams that have trained large Transformer-based models have reported training instabilities at large scale that did not appear when training with the same hyperparameters at smaller scales. Although the causes of such instabilities are of scientific interest, the amount of resources required to reproduce them has made investigation difficult. In this work, we seek ways to reproduce and study training stability and instability at smaller scales. First, we focus on two sources of training instability described in previous work: the growth of logits in attention layers (Dehghani et al., 2023) and divergence of the output logits from the log probabilities (Chowdhery et al., 2022). By measuring the relationship between learning rate and loss across scales, we show that these instabilities also appear in small models when training at high learning rates, and that mitigations previously employed at large scales are equally effective in this regime. This prompts us to investigate the extent to which other known optimizer and model interventions influence the sensitivity of the final loss to changes in the learning rate. To this end, we study methods such as warm-up, weight decay, and the $\mu$Param (Yang et al., 2022), and combine techniques to train small models that achieve similar losses across orders of magnitude of learning rate variation. Finally, to conclude our exploration we study two cases where instabilities can be predicted before they emerge by examining the scaling behavior of model activation and gradient norms.

arxiv情報

著者 Mitchell Wortsman,Peter J. Liu,Lechao Xiao,Katie Everett,Alex Alemi,Ben Adlam,John D. Co-Reyes,Izzeddin Gur,Abhishek Kumar,Roman Novak,Jeffrey Pennington,Jascha Sohl-dickstein,Kelvin Xu,Jaehoon Lee,Justin Gilmer,Simon Kornblith
発行日 2023-09-25 17:48:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク