要約
最近、Transformer ベースのモデルをトレーニングするための効率的な事前トレーニング パラダイムへの関心が高まっています。
最近のいくつかのアプローチでは、計算を節約するために、より小さなモデルを使用してより大きなモデルを初期化しています (スタッキングやフュージョンなど)。
この研究では、与えられた成長戦略のプールから最適な成長戦略をどのように選択するかという基本的な問題を研究します。
これまでの研究は、初期化時の損失および/または機能の保存動作、またはトレーニング終了時の単純なパフォーマンスに広く焦点を当ててきました。
その代わりに、初期化時の動作が最終パフォーマンスの予測因子として誤解を招く可能性があることを特定し、「ランドスケープを意識した成長 (LAG)」と呼ぶ、初期のトレーニング ダイナミクスに基づいた別の視点を提示します。
私たちは、最終パフォーマンスとトレーニングの初期ステップのパフォーマンスの相関関係について広範な分析を実行し、最適な成長戦略の早期かつより正確な予測を見つけます (つまり、初期化後のわずかな「遅れ」のみ)。
この観点は、段階的なスタッキングのための適応戦略の動機にもなります。
要約(オリジナル)
Recently, there has been increasing interest in efficient pretraining paradigms for training Transformer-based models. Several recent approaches use smaller models to initialize larger models in order to save computation (e.g., stacking and fusion). In this work, we study the fundamental question of how to select the best growing strategy from a given pool of growing strategies. Prior works have extensively focused on loss- and/or function-preserving behavior at initialization or simply performance at the end of training. Instead, we identify that behavior at initialization can be misleading as a predictor of final performance and present an alternative perspective based on early training dynamics, which we call ‘landscape-aware growing (LAG)’. We perform extensive analysis of correlation of the final performance with performance in the initial steps of training and find early and more accurate predictions of the optimal growing strategy (i.e., with only a small ‘lag’ after initialization). This perspective also motivates an adaptive strategy for gradual stacking.
arxiv情報
著者 | Stefani Karp,Nikunj Saunshi,Sobhan Miryoosefi,Sashank J. Reddi,Sanjiv Kumar |
発行日 | 2024-06-04 16:38:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google