Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices

要約

最新のディープラーニング・モデルは、巨大化し複雑化しているが、膨大なデータセットでの学習により、卓越した汎化と精度を実証している。この傾向は今後も続くと予想される。しかし、従来の集中型手法は、このような規模ではメモリ制約によって制限されるため、これらのモデルのサイズの増大は、訓練に課題をもたらす。本稿では、大規模な最新のディープラーニングモデルのための非同期分散型トレーニングパラダイムを提案します。これは、インターネットを介して接続された、リソースが限られた通常のヘテロジニアスPCの計算能力を活用し、好ましいパフォーマンス指標を達成するものです。Ravnestは、各ノードがモデル全体をホストする必要なく、データ転送速度と計算能力が類似したクラスタに計算ノードを効率的に編成することで、分散型学習を容易にします。これらのクラスタは、$textit{Zero-Bubble Asynchronous Model Parallel}$学習を行い、$textit{Parallel Multi-Ring All-Reduce}$手法を採用して、全クラスタにわたってグローバル・パラメータ平均化を効率的に実行します。非同期SGD損失関数を遅延更新を伴うブロック構造最適化問題として定式化し、最適収束率$Oleft( \frac{1}{sqrt{K}} }right)$を導出した。さらに、参加クラスタ数に対する線形高速化とstalenessパラメータの束縛について議論する。

要約(オリジナル)

Modern deep learning models, growing larger and more complex, have demonstrated exceptional generalization and accuracy due to training on huge datasets. This trend is expected to continue. However, the increasing size of these models poses challenges in training, as traditional centralized methods are limited by memory constraints at such scales. This paper proposes an asynchronous decentralized training paradigm for large modern deep learning models that harnesses the compute power of regular heterogeneous PCs with limited resources connected across the internet to achieve favourable performance metrics. Ravnest facilitates decentralized training by efficiently organizing compute nodes into clusters with similar data transfer rates and compute capabilities, without necessitating that each node hosts the entire model. These clusters engage in $\textit{Zero-Bubble Asynchronous Model Parallel}$ training, and a $\textit{Parallel Multi-Ring All-Reduce}$ method is employed to effectively execute global parameter averaging across all clusters. We have framed our asynchronous SGD loss function as a block structured optimization problem with delayed updates and derived an optimal convergence rate of $O\left(\frac{1}{\sqrt{K}}\right)$. We further discuss linear speedup with respect to the number of participating clusters and the bound on the staleness parameter.

arxiv情報

著者 Anirudh Rajiv Menon,Unnikrishnan Menon,Kailash Ahirwar
発行日 2024-01-03 13:07:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.DC, cs.LG パーマリンク