Sequential Gradient Coding For Straggler Mitigation

要約

分散コンピューティングでは、通常、遅いノード (ストラグラー) がボトルネックになります。
Tandon らによって導入された勾配コーディング (GC) は、誤り訂正符号の原理を使用して、ストラグラーが存在する場合に勾配計算を分散する効率的な手法です。
この論文では、各勾配 $g(t)$ の処理が開始される一連の勾配 $\{g(1),g(2),\ldots,g(J)\}$ の分散計算を検討します。
Round-$t$ でラウンド $(t+T)$ までに終了します。
ここで $T\geq 0$ は遅延パラメータを示します。
GC スキームの場合、コーディングはコンピューティング ノード間でのみ行われ、$T=0$ となる解が得られます。
一方、$T>0$ を持たせると、時間的次元も活用するスキームの設計が可能になります。
この研究では、GC と比較してパフォーマンスが向上していることを示す 2 つのスキームを提案します。
最初のスキームは、GC と以前に完了していないタスクの選択的な繰り返しを組み合わせて、ストラグラーの軽減の向上を実現します。
私たちの主な貢献を構成する 2 番目のスキームでは、タスクのサブセットに GC を適用し、残りのタスクに繰り返しを適用します。
次に、過去のストラグラー パターンに基づいて、これら 2 つのクラスのタスクをワーカーとラウンドにわたって適応的な方法で多重化します。
理論分析を使用して、2 番目のスキームが計算負荷の大幅な削減を達成することを示します。
私たちの実験では、256 個のワーカー ノードを含む AWS Lambda クラスター上で複数のニューラル ネットワークを同時にトレーニングする実践的な設定を研究します。この設定には私たちのフレームワークが自然に適用されます。
後者のスキームは、自然に発生するシミュレーションされていないストラグラーの存在下で、ベースライン GC スキームと比較して実行時間が 16\% 改善できることを実証します。

要約(オリジナル)

In distributed computing, slower nodes (stragglers) usually become a bottleneck. Gradient Coding (GC), introduced by Tandon et al., is an efficient technique that uses principles of error-correcting codes to distribute gradient computation in the presence of stragglers. In this paper, we consider the distributed computation of a sequence of gradients $\{g(1),g(2),\ldots,g(J)\}$, where processing of each gradient $g(t)$ starts in round-$t$ and finishes by round-$(t+T)$. Here $T\geq 0$ denotes a delay parameter. For the GC scheme, coding is only across computing nodes and this results in a solution where $T=0$. On the other hand, having $T>0$ allows for designing schemes which exploit the temporal dimension as well. In this work, we propose two schemes that demonstrate improved performance compared to GC. Our first scheme combines GC with selective repetition of previously unfinished tasks and achieves improved straggler mitigation. In our second scheme, which constitutes our main contribution, we apply GC to a subset of the tasks and repetition for the remainder of the tasks. We then multiplex these two classes of tasks across workers and rounds in an adaptive manner, based on past straggler patterns. Using theoretical analysis, we demonstrate that our second scheme achieves significant reduction in the computational load. In our experiments, we study a practical setting of concurrently training multiple neural networks over an AWS Lambda cluster involving 256 worker nodes, where our framework naturally applies. We demonstrate that the latter scheme can yield a 16\% improvement in runtime over the baseline GC scheme, in the presence of naturally occurring, non-simulated stragglers.

arxiv情報

著者 M. Nikhil Krishnan,MohammadReza Ebrahimi,Ashish Khisti
発行日 2023-06-28 14:42:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク