Don’t be lazy: CompleteP enables compute-efficient deep transformers

要約

さまざまなパラメーター化を使用する場合、LLMトレーニングの計算効率、つまりモデルサイズが変更されるときにモデルとオプティマイザーハイパーパラメーター(HPS)を調整するためのルールを研究します。
一部のパラメーター化は、モデルの深さの変化にわたって最適なベースHP(学習率など)を転送できないため、実務家はこれらのHPがスケールアップ(高価)に再調整するか、再調整が法外な場合に最適なトレーニングを受け入れる必要があります。
HP転送を達成した場合でも、レイヤーが線形化に近い特徴のみを学習し、深さと非線形性の効果的な使用を妨げる怠zyな学習体制にパラメーター化が存在する可能性があることを示す理論を開発します。
最後に、すべてのレイヤーで深さのHP転送と怠zyな学習の両方を達成するCompletePと呼ばれるパラメーター化を特定して採用します。
CompletEPにより、より広い範囲のモデル幅/深度比が計算効率の良いままで、さまざまなハードウェア設定と運用コンテキストに適したロック解除シェイプを使用することができます。
さらに、CompletePは、以前の最先端で12〜34%の計算効率の改善を可能にします。

要約(オリジナル)

We study compute efficiency of LLM training when using different parameterizations, i.e., rules for adjusting model and optimizer hyperparameters (HPs) as model size changes. Some parameterizations fail to transfer optimal base HPs (such as learning rate) across changes in model depth, requiring practitioners to either re-tune these HPs as they scale up (expensive), or accept sub-optimal training when re-tuning is prohibitive. Even when they achieve HP transfer, we develop theory to show parameterizations may still exist in the lazy learning regime where layers learn only features close to their linearization, preventing effective use of depth and nonlinearity. Finally, we identify and adopt the parameterization we call CompleteP that achieves both depth-wise HP transfer and non-lazy learning in all layers. CompleteP enables a wider range of model width/depth ratios to remain compute-efficient, unlocking shapes better suited for different hardware settings and operational contexts. Moreover, CompleteP enables 12-34% compute efficiency improvements over the prior state-of-the-art.

arxiv情報

著者 Nolan Dey,Bin Claire Zhang,Lorenzo Noci,Mufan Li,Blake Bordelon,Shane Bergsma,Cengiz Pehlevan,Boris Hanin,Joel Hestness
発行日 2025-05-14 17:09:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク