Robust Fully-Asynchronous Methods for Distributed Training over General Architecture

要約

分散機械学習の問題における完全な同期は、遅延、パッケージ損失、および滞留要素の存在により非効率的であり、不可能ですらあります。
私たちは、各デバイスが同期を行わずに独自のペースでローカル計算と通信を実行する、堅牢な完全非同期確率的勾配追跡法 (R-FAST) を提案します。
既存の非同期分散アルゴリズムとは異なり、R-FAST は、勾配ベクトル全体を追跡およびバッファリングするために適切に設計された補助変数に依存する堅牢な勾配追跡戦略を採用することで、デバイス間のデータ異質性の影響を排除し、パケット損失を許容できます。
さらに重要なことは、提案された方法は、両方が少なくとも 1 つの共通ルートを共有する限り、通信に 2 つのスパニング ツリー グラフを利用し、通信アーキテクチャの柔軟な設計を可能にすることです。
我々は、R-FAST が、滑らかで強い凸面の対物レンズの幾何学的レートを備えた最適値の近傍に期待して収束することを示します。
一般的な非凸設定の場合はサブリニア レートの静止点まで。
広範な実験により、R-FAST は、Ring-AllReduce や D-PSGD などの同期ベンチマーク アルゴリズムよりも 1.5​​ ~ 2 倍高速に実行されながら、同等の精度を達成し、特にストラグラーが存在する場合に、AD-PSGD や OSGP などの既存の非同期 SOTA アルゴリズムよりも優れたパフォーマンスを発揮することが実証されています。

要約(オリジナル)

Perfect synchronization in distributed machine learning problems is inefficient and even impossible due to the existence of latency, package losses and stragglers. We propose a Robust Fully-Asynchronous Stochastic Gradient Tracking method (R-FAST), where each device performs local computation and communication at its own pace without any form of synchronization. Different from existing asynchronous distributed algorithms, R-FAST can eliminate the impact of data heterogeneity across devices and allow for packet losses by employing a robust gradient tracking strategy that relies on properly designed auxiliary variables for tracking and buffering the overall gradient vector. More importantly, the proposed method utilizes two spanning-tree graphs for communication so long as both share at least one common root, enabling flexible designs in communication architectures. We show that R-FAST converges in expectation to a neighborhood of the optimum with a geometric rate for smooth and strongly convex objectives; and to a stationary point with a sublinear rate for general non-convex settings. Extensive experiments demonstrate that R-FAST runs 1.5-2 times faster than synchronous benchmark algorithms, such as Ring-AllReduce and D-PSGD, while still achieving comparable accuracy, and outperforms existing asynchronous SOTA algorithms, such as AD-PSGD and OSGP, especially in the presence of stragglers.

arxiv情報

著者 Zehan Zhu,Ye Tian,Yan Huang,Jinming Xu,Shibo He
発行日 2023-07-21 14:36:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク