Efficient Stagewise Pretraining via Progressive Subnetworks

要約

大規模言語モデルの最近の開発により、効率的な事前トレーニング方法への関心が高まっています。
最近の効果的なパラダイムは、モデルのサイズがトレーニングの過程で徐々に増加する段階的なトレーニングを実行することです (例: 段階的なスタッキング (Reddi et al., 2023))。
リソースと所要時間の節約は魅力的ですが、特に初期段階で完全なモデルを評価できないことや、初期段階でのモデル容量が小さいためモデルの品質が低下するなど、制限もあります。
この研究では、代替フレームワークであるプログレッシブ サブネットワーク トレーニングを提案します。これは、トレーニング全体を通じて完全なモデルを維持しますが、各ステップではモデル内のサブネットワークのみをトレーニングします。
私たちは、このフレームワークの単純なインスタンス化であるランダム パス トレーニング (RaPTr) に焦点を当てます。これは、各ステップでレイヤーのサブパスのみをトレーニングし、段階的にパスの長さを徐々に増やします。
RaPTr は、標準トレーニングと比較して必要な FLOP を 20 ~ 33% 削減しながら、BERT および UL2 言語モデルのトレーニング前損失を改善し、他の効率的なトレーニング方法と比べて競争力があるか、優れています。
さらに、RaPTr は UL2 でより優れたダウンストリーム パフォーマンスを示し、標準のトレーニングやスタッキングと比較して QA タスクと SuperGLUE を 1 ~ 5% 改善します。
最後に、RaPTr が (a) 段階的に増大するサブネットワークの複雑性、および (b) 残留接続と層基準による段階遷移全体にわたる損失の安定性を正当化するための理論的根拠を提供します。

要約(オリジナル)

Recent developments in large language models have sparked interest in efficient pretraining methods. A recent effective paradigm is to perform stage-wise training, where the size of the model is gradually increased over the course of training (e.g. gradual stacking (Reddi et al., 2023)). While the resource and wall-time savings are appealing, it has limitations, particularly the inability to evaluate the full model during earlier stages, and degradation in model quality due to smaller model capacity in the initial stages. In this work, we propose an alternative framework, progressive subnetwork training, that maintains the full model throughout training, but only trains subnetworks within the model in each step. We focus on a simple instantiation of this framework, Random Path Training (RaPTr) that only trains a sub-path of layers in each step, progressively increasing the path lengths in stages. RaPTr achieves better pre-training loss for BERT and UL2 language models while requiring 20-33% fewer FLOPs compared to standard training, and is competitive or better than other efficient training methods. Furthermore, RaPTr shows better downstream performance on UL2, improving QA tasks and SuperGLUE by 1-5% compared to standard training and stacking. Finally, we provide a theoretical basis for RaPTr to justify (a) the increasing complexity of subnetworks in stages, and (b) the stability in loss across stage transitions due to residual connections and layer norm.

arxiv情報

著者 Abhishek Panigrahi,Nikunj Saunshi,Kaifeng Lyu,Sobhan Miryoosefi,Sashank Reddi,Satyen Kale,Sanjiv Kumar
発行日 2024-02-08 18:49:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク