Enhancing Stability for Large Models Training in Constrained Bandwidth Networks

要約

数十億のパラメータを使用して非常に大規模な言語モデルをトレーニングすることは、現在のデータ並列トレーニング システムの限界を押し上げる計算集約的なタスクです。
ZeRO++ のような技術により、安価な低帯域幅クラスター上でこのような巨大モデルの効率的な分散トレーニングが可能になりましたが、クロスマシン通信を削減するために採用された階層パーティショニング (hpZ) スキームの潜在的な競合状態による収束の問題が発生する可能性があります。
この研究では、最初に、数十億のパラメーターを使用してモデルをトレーニングするときに、これらの競合状態がどのように不安定性を引き起こすかを示します。
次に、競技トレーニングの効率を維持しながら、これらの収束の課題に対処する分割アルゴリズムの修正を提案します。
数十億パラメータの Falcon モデルと Llama-2 モデルのトレーニングに関する経験的評価は、ストック ZeRO++ hpZ が収束しないこれらの大規模なモデルで信頼性の高い収束を達成する更新されたアルゴリズムの能力を示しています。
更新されたアルゴリズムにより、98% のスループットで大規模なモデルの堅牢なトレーニングが可能になり、収束の品質を犠牲にすることなくモデルのトレーニング速度が向上します。

要約(オリジナル)

Training extremely large language models with billions of parameters is a computationally intensive task that pushes the limits of current data parallel training systems. While techniques like ZeRO++ have enabled efficient distributed training of such giant models on inexpensive low-bandwidth clusters, they can suffer from convergence issues due to potential race conditions in the hierarchical partitioning (hpZ) scheme employed to reduce cross-machine communication. In this work, we first show how these race conditions cause instability when training models with billions of parameters. We then propose a modification to the partitioning algorithm that addresses these convergence challenges while maintaining competitive training efficiency. Empirical evaluation on training the multi-billion parameters Falcon Models and Llama-2 models demonstrates the updated algorithm’s ability to achieve reliable convergence on these massive models, where stock ZeRO++ hpZ fails to converge. The updated algorithm enables robust training of larger models with 98\% throughput and model training speed improvement without sacrificing the quality of convergence.

arxiv情報

著者 Yun Dai,Tejas Dharamsi,Byron Hsu,Tao Song,Hamed Firooz
発行日 2024-08-01 02:56:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク