Accelerating Distributed ML Training via Selective Synchronization

要約

分散トレーニングでは、ディープ ニューラル ネットワーク (DNN) が複数のワーカー上で同時に起動され、バルク同期並列 (BSP) トレーニングの各ステップでのローカル更新を集約します。
ただし、BSP は、アグリゲーションの通信コストが高いため、直線的にスケールアウトしません。
このオーバーヘッドを軽減するために、FedAvg (FedAvg) や Stale-Synchronous Parallel (SSP) などの代替手段は、同期頻度を減らすか完全に排除しますが、通常は最終精度が低下します。
この論文では、\texttt{SelSync} を紹介します。これは、集約演算を呼び出すか、重要性に基づいてローカル更新を適用することによって、各ステップで通信を発生させるか回避するかを動的に選択する、DNN トレーニングのための実用的でオーバーヘッドの低い方法です。
\textit{半同期} トレーニングのコンテキストでの収束を改善するために、 \texttt{SelSync} の一部としてさまざまな最適化を提案します。
私たちのシステムは、トレーニング時間を最大 14$\times$ 削減しながら、BSP と同等以上の精度に収束します。

要約(オリジナル)

In distributed training, deep neural networks (DNNs) are launched over multiple workers concurrently and aggregate their local updates on each step in bulk-synchronous parallel (BSP) training. However, BSP does not linearly scale-out due to high communication cost of aggregation. To mitigate this overhead, alternatives like Federated Averaging (FedAvg) and Stale-Synchronous Parallel (SSP) either reduce synchronization frequency or eliminate it altogether, usually at the cost of lower final accuracy. In this paper, we present \texttt{SelSync}, a practical, low-overhead method for DNN training that dynamically chooses to incur or avoid communication at each step either by calling the aggregation op or applying local updates based on their significance. We propose various optimizations as part of \texttt{SelSync} to improve convergence in the context of \textit{semi-synchronous} training. Our system converges to the same or better accuracy than BSP while reducing training time by up to 14$\times$.

arxiv情報

著者 Sahil Tyagi,Martin Swany
発行日 2024-01-29 18:18:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.DC, cs.LG パーマリンク