Pseudo-Asynchronous Local SGD: Robust and Efficient Data-Parallel Training

要約

AIスケーリングの傾向に続いて、フロンティアモデルはサイズが成長し続け、より大きなデータセットでトレーニングを続けています。
これらのモデルのトレーニングには、エクサスカーの計算リソースへの多額の投資が必要であり、それが分散した深い学習方法の開発を促進しました。
データの並列性は、トレーニングを高速化するための不可欠なアプローチですが、労働者間の頻繁な世界的なコミュニケーションが必要であり、最大のスケールでトレーニングをボトルネックすることができます。
この作業では、データ並列トレーニングの効率を向上させるために、擬似細胞性ローカルSGD(PALSGD)と呼ばれる方法を提案します。
PALSGDは、地元のSGD(Stich、2018)とDiloco(Douillard et al。、2023)の拡張であり、擬似同期メカニズムを導入することによりコミュニケーション頻度をさらに減らすように設計されています。
PALSGDでは、標準のローカルSGDと比較して、より長い同期間隔を使用できます。
通信頻度が低下しているにもかかわらず、擬似同期アプローチにより、モデルの一貫性が維持され、より頻繁な同期で達成されたものに匹敵するパフォーマンス結果につながります。
さらに、PALSGDの理論的分析を提供し、収束を確立し、収束率を導き出します。
この分析は、アルゴリズムの動作とパフォーマンスの保証に関する洞察を提供します。
画像分類と言語モデリングタスクに関するPALSGDを評価しました。
我々の結果は、PALSGDが分散データパラレル(DDP)やディロコなどの既存の方法と比較して、より短い時間でより良いパフォーマンスを達成することを示しています。
特に、PALSGDは、resNet-50を使用したImagenet-1KのDDPよりも18.4%高速で、GPT-NEO125Mの小さなストーリーではDDPよりも24.4%高速で、GPT-NEO-8Mを搭載した小さなストーリーでDDPよりも21.1%速い列車を訓練します。

要約(オリジナル)

Following AI scaling trends, frontier models continue to grow in size and continue to be trained on larger datasets. Training these models requires huge investments in exascale computational resources, which has in turn driven development of distributed deep learning methods. Data parallelism is an essential approach to speed up training, but it requires frequent global communication between workers, which can bottleneck training at the largest scales. In this work, we propose a method called Pseudo-Asynchronous Local SGD (PALSGD) to improve the efficiency of data-parallel training. PALSGD is an extension of Local SGD (Stich, 2018) and DiLoCo (Douillard et al., 2023), designed to further reduce communication frequency by introducing a pseudo-synchronization mechanism. PALSGD allows the use of longer synchronization intervals compared to standard Local SGD. Despite the reduced communication frequency, the pseudo-synchronization approach ensures that model consistency is maintained, leading to performance results comparable to those achieved with more frequent synchronization. Furthermore, we provide a theoretical analysis of PALSGD, establishing its convergence and deriving its convergence rate. This analysis offers insights into the algorithm’s behavior and performance guarantees. We evaluated PALSGD on image classification and language modeling tasks. Our results show that PALSGD achieves better performance in less time compared to existing methods like Distributed Data Parallel (DDP), and DiLoCo. Notably, PALSGD trains 18.4% faster than DDP on ImageNet-1K with ResNet-50, 24.4% faster than DDP on TinyStories with GPT-Neo125M, and 21.1% faster than DDP on TinyStories with GPT-Neo-8M.

arxiv情報

著者 Hiroki Naganuma,Xinzhi Zhang,Man-Chung Yue,Ioannis Mitliagkas,Philipp A. Witte,Russell J. Hewett,Yin Tat Lee
発行日 2025-04-25 16:06:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク