NoLoCo: No-all-reduce Low Communication Training Method for Large Models

要約

通常、大規模な言語モデルのトレーニングは、数万の加速器を含むクラスターの最適化方法を介して行われ、高帯域幅の相互接続を通信します。
これらのクラスターをスケーリングすることは高価であり、非現実的で、訓練できるモデルのサイズに制限を課すことができます。
いくつかの最近の研究では、コミュニケーション集約的でないトレーニング方法が提案されており、高度に接続された計算クラスターの必要性を回避しています。
これらの最先端の低い通信トレーニング方法は、モデルパラメーターの同期ステップを依然として採用しています。これは、すべてのモデルレプリカで実行されると、低帯域幅ネットワークでコストがかかります。
この作業では、トレーニング中にすべてのモデルパラメーターを明示的に同期せず、その結果、集合的なコミュニケーションを必要としない新しい最適化方法Nolocoを提案します。
Nolocoは、ランダムに選択された他のものとモデルの重みを部分的に平均化することにより、Nesterov Momentum Optimizerの新しいバリアントを介してモデルの重みを暗黙的に同期します。
提案されたオプティマイザーの理論的収束分析と、言語モデルトレーニングの経験的結果の両方を提供します。
Nolocoは、125mから6.8bのパラメーターの間の幅広いアクセラレータ数とモデルサイズに基づいています。
私たちの方法では、完全にシャードされたデータパラレルトレーニングや広く使用されている低コミュニケーショントレーニング方法であるDilocoよりも、通信オーバーヘッドが大幅に少ない必要があります。
同期ステップ自体は、インターネット上でトレーニングする数百人の加速器のために、ディロコで使用されている全レデュースよりも1つのマグニチュードであると推定されます。
また、アクセラレータのアイドリング時間を短縮するグローバルブロッキング通信もありません。
ディロコと比較して、幅広いモデルサイズとアクセラレータカウントを備えた最大$ 4 \%$の収束率も観察します。

要約(オリジナル)

Training large language models is generally done via optimization methods on clusters containing tens of thousands of accelerators, communicating over a high-bandwidth interconnect. Scaling up these clusters is expensive and can become impractical, imposing limits on the size of models that can be trained. Several recent studies have proposed training methods that are less communication intensive, avoiding the need for a highly connected compute cluster. These state-of-the-art low communication training methods still employ a synchronization step for model parameters, which, when performed over all model replicas, can become costly on a low-bandwidth network. In this work, we propose a novel optimization method, NoLoCo, that does not explicitly synchronize all model parameters during training and, as a result, does not require any collective communication. NoLoCo implicitly synchronizes model weights via a novel variant of the Nesterov momentum optimizer by partially averaging model weights with a randomly selected other one. We provide both a theoretical convergence analysis for our proposed optimizer as well as empirical results from language model training. We benchmark NoLoCo on a wide range of accelerator counts and model sizes, between 125M to 6.8B parameters. Our method requires significantly less communication overhead than fully sharded data parallel training or even widely used low communication training method, DiLoCo. The synchronization step itself is estimated to be one magnitude faster than the all-reduce used in DiLoCo for few hundred accelerators training over the internet. We also do not have any global blocking communication that reduces accelerator idling time. Compared to DiLoCo, we also observe up to $4\%$ faster convergence rate with wide range of model sizes and accelerator counts.

arxiv情報

著者 Jari Kolehmainen,Nikolay Blagoev,John Donaghy,Oğuzhan Ersoy,Christopher Nies
発行日 2025-06-12 17:23:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク