QSync: Quantization-Minimized Synchronous Distributed Training Across Hybrid Devices

要約

多くの実稼働ディープラーニング クラスターは、多くの推論 GPU がアイドル状態になっているオフピークのサービス時間帯に、DNN トレーニング用の推論ハードウェアを探索しようとしました。
ハイブリッド デバイス トレーニングとして知られる、異種トレーニングと推論 GPU を組み合わせて DNN トレーニングを実施する場合、コンピューティング能力の違いとメモリ容量の大きな違いにより、大きな課題が生じます。
量子化された演算子を戦略的に活用することで、ハイブリッド デバイス上で効率的な同期データ並列 DNN トレーニングを可能にするトレーニング システムである QSync を提案します。
各デバイスの利用可能なリソース容量に応じて、QSync は分散 DNN トレーニング グラフ内のオペレーターに対して量子化を最小化する設定を選択し、モデルの精度の低下を最小限に抑えながら、量子化によるトレーニング効率を維持します。
固定小数点および浮動小数点の低精度演算子における DNN レイヤーの感度を反映する双方向混合精度インジケーターを備えた予測器、分散型のレイテンシーを正確に推定するための近傍認識コスト マッパーを備えたリピーターを慎重に設計しています。
ハイブリッド混合精度トレーニング、そしてモデル精度の低下を最小限に抑えながらワーカーを効率的に同期するアロケーターです。
QSync は、PyTorch 上の計算グラフを、量子化カーネルのパフォーマンスとさまざまな GPU アーキテクチャの柔軟なサポートのために最適化されたバックエンドにブリッジします。
広範な実験により、QSync のプレディクターは分散混合精度トレーニングを 5% 未満の誤差で正確にシミュレートでき、均一な精度と比較して、スクラッチからのトレーニング タスクより一貫して 0.27 ~ 1.03% 精度が向上することが示されています。

要約(オリジナル)

A number of production deep learning clusters have attempted to explore inference hardware for DNN training, at the off-peak serving hours with many inference GPUs idling. Conducting DNN training with a combination of heterogeneous training and inference GPUs, known as hybrid device training, presents considerable challenges due to disparities in compute capability and significant differences in memory capacity. We propose QSync, a training system that enables efficient synchronous data-parallel DNN training over hybrid devices by strategically exploiting quantized operators. According to each device’s available resource capacity, QSync selects a quantization-minimized setting for operators in the distributed DNN training graph, minimizing model accuracy degradation but keeping the training efficiency brought by quantization. We carefully design a predictor with a bi-directional mixed-precision indicator to reflect the sensitivity of DNN layers on fixed-point and floating-point low-precision operators, a replayer with a neighborhood-aware cost mapper to accurately estimate the latency of distributed hybrid mixed-precision training, and then an allocator that efficiently synchronizes workers with minimized model accuracy degradation. QSync bridges the computational graph on PyTorch to an optimized backend for quantization kernel performance and flexible support for various GPU architectures. Extensive experiments show that QSync’s predictor can accurately simulate distributed mixed-precision training with <5% error, with a consistent 0.27-1.03% accuracy improvement over the from-scratch training tasks compared to uniform precision.

arxiv情報

著者 Juntao Zhao,Borui Wan,Yanghua Peng,Haibin Lin,Yibo Zhu,Chuan Wu
発行日 2024-07-02 14:56:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク