要約
ディロコなどの分散最適化方法は、データセンターなどの複数の分散労働者で非常に大きなモデルをトレーニングするのに効果的であることが示されています。
これらの方法は、更新を2つの部分に分割します。内部最適化フェーズ。ワーカーが独自のローカルデータで複数の最適化ステップを独立して実行すると、内側の更新が同期される外部最適化ステップ。
このようなアプローチでは、労働者がデータセンターである設定では、標準的なデータ並列トレーニングよりも数桁少ない通信が必要ですが、これらのアプローチの限られた通信要件でさえ、各外部最適化ステップで必要なブロッキングがあるため、依然として大きなスローダウンを引き起こす可能性があります。
このホワイトペーパーでは、外部最適化ステップが内部最適化フェーズと完全に重複できるように、計算と通信を重複させることにより、この問題を軽減する手法を調査します。
熱心な更新と呼ばれる特定のバリアントが、労働者間の帯域幅が低い設定で標準的なディロコで競争力のあるパフォーマンスを提供することを示します。
要約(オリジナル)
Distributed optimization methods such as DiLoCo have been shown to be effective in training very large models across multiple distributed workers, such as datacenters. These methods split updates into two parts: an inner optimization phase, where the workers independently execute multiple optimization steps on their own local data, and an outer optimization step, where the inner updates are synchronized. While such approaches require orders of magnitude less communication than standard data-parallel training, in settings where the workers are datacenters, even the limited communication requirements of these approaches can still cause significant slow downs due to the blocking necessary at each outer optimization step. In this paper, we investigate techniques to mitigate this issue by overlapping communication with computation in a manner that allows the outer optimization step to fully overlap with the inner optimization phase. We show that a particular variant, dubbed eager updates, provides competitive performance with standard DiLoCo in settings with low bandwidth between workers.
arxiv情報
著者 | Satyen Kale,Arthur Douillard,Yanislav Donchev |
発行日 | 2025-02-18 16:16:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google