Flexible Communication for Optimal Distributed Learning over Unpredictable Networks

要約

勾配圧縮は、通常 Allgather (AG) 経由で送信する値とそれに対応するインデックスを少なくすることで、分散ディープラーニングにおける高価な通信を軽減します。
高い圧縮率 (CR) でのトレーニングは DenseSGD と同様に高い精度を実現しますが、通信コストが高い (つまり、並列効率) ため、並列スケーリングは低くなります。
より低い CR を使用すると、同期コストが削減されて並列効率が向上しますが、モデルの精度 (統計効率) も低下します。
さらに、さまざまなモデルや CR で達成される高速化は、ネットワーク遅延、有効帯域幅、およびアグリゲーションに使用される集合演算によっても異なります。
多くの場合、Allreduce (AR) のようなコレクティブは、同じ量のデータを交換するのに AG よりもコストが低くなります。
この論文では、帯域幅が最適化され、特定のネットワーク構成で AG よりも優れたパフォーマンスを発揮する AR 互換の Topk コンプレッサを提案します。
現在の設定でどの集団が最適であるかに基づいて AG と AR を切り替える柔軟なコミュニケーション戦略を開発し、CR を動的に調整して加速するための多目的最適化 (MOO) 問題として並列効率と統計的効率の間のパレート関係をモデル化します。
高精度に収束しながらトレーニングを行うことができます。

要約(オリジナル)

Gradient compression alleviates expensive communication in distributed deep learning by sending fewer values and its corresponding indices, typically via Allgather (AG). Training with high compression ratio (CR) achieves high accuracy like DenseSGD, but has lower parallel scaling due to high communication cost (i.e., parallel efficiency). Using lower CRs improves parallel efficiency by lowering synchronization cost, but degrades model accuracy as well (statistical efficiency). Further, speedup attained with different models and CRs also varies with network latency, effective bandwidth and collective op used for aggregation. In many cases, collectives like Allreduce (AR) have lower cost than AG to exchange the same amount of data. In this paper, we propose an AR-compatible Topk compressor that is bandwidth-optimal and thus performs better than AG in certain network configurations. We develop a flexible communication strategy that switches between AG and AR based on which collective is optimal in the current settings, and model the pareto-relationship between parallel and statistical efficiency as a multi-objective optimization (MOO) problem to dynamically adjust CR and accelerate training while still converging to high accuracy.

arxiv情報

著者 Sahil Tyagi,Martin Swany
発行日 2024-01-29 18:23:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.DC パーマリンク