MindFlayer SGD: Efficient Parallel SGD in the Presence of Heterogeneous and Random Worker Compute Times

要約

確率的勾配を計算できる複数の並列労働者を使用して、分散型設定で滑らかな非コンベックス関数の期待を最小限に抑える問題を調査します。
この文脈における重要な課題は、労働者の間で任意に不均一で確率的な計算時間が存在することです。これは、既存の並列確率勾配降下(SGD)法の性能を著しく分解することができます。
一部の並列SGDアルゴリズムは、決定論的だが不均一な遅延の下で最適なパフォーマンスを実現しますが、コンピューティング時間がランダムである場合、その効果は低下します – デザインでは明示的に対処されていないシナリオ。
このギャップを埋めるために、Mindflayer SGDを導入します。これは、確率的で不均一な計算時間を処理するために特別に設計された新しい平行SGDメソッドです。
理論的分析と経験的評価を通じて、Mindflayer SGDは、特に尾のあるノイズがある環境で、既存のベースラインを常に上回ることを実証します。
私たちの結果は、その堅牢性とスケーラビリティを強調しており、大規模な分散学習タスクに魅力的な選択となっています。

要約(オリジナル)

We investigate the problem of minimizing the expectation of smooth nonconvex functions in a distributed setting with multiple parallel workers that are able to compute stochastic gradients. A significant challenge in this context is the presence of arbitrarily heterogeneous and stochastic compute times among workers, which can severely degrade the performance of existing parallel stochastic gradient descent (SGD) methods. While some parallel SGD algorithms achieve optimal performance under deterministic but heterogeneous delays, their effectiveness diminishes when compute times are random – a scenario not explicitly addressed in their design. To bridge this gap, we introduce MindFlayer SGD, a novel parallel SGD method specifically designed to handle stochastic and heterogeneous compute times. Through theoretical analysis and empirical evaluation, we demonstrate that MindFlayer SGD consistently outperforms existing baselines, particularly in environments with heavy-tailed noise. Our results highlight its robustness and scalability, making it a compelling choice for large-scale distributed learning tasks.

arxiv情報

著者 Artavazd Maranjyan,Omar Shaikh Omar,Peter Richtárik
発行日 2025-06-13 17:24:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, math.OC, stat.ML パーマリンク