Activations and Gradients Compression for Model-Parallel Training

要約

大規模なニューラル ネットワークには、膨大なマシンの計算クラスターが必要です。
モデル アーキテクチャがワーカー間で順次分割されるモデル並列トレーニングは、最新のモデルをトレーニングするための一般的なアプローチです。
このようなシステムでは情報圧縮がボトルネックになることが多いため、情報圧縮を適用すると、従業員の通信時間を短縮できます。
この研究では、モデル並列分散トレーニング設定におけるアクティベーションと勾配の同時圧縮が収束にどのような影響を与えるかを調査します。
量子化やTopK圧縮などの圧縮方式を解析し、誤差補償技術の実験も行っています。
さらに、AQ-SGD によるバッチごとのエラー フィードバック アプローチを備えた TopK を採用しています。
画像分類と言語モデルの微調整タスクに関する実験を行います。
私たちの調査結果は、勾配にはアクティベーションよりも緩やかな圧縮率が必要であることを示しています。
$K=10\%$ が最も低い TopK 圧縮レベルであり、モデルの収束に深刻な悪影響を及ぼさないことがわかります。
実験では、TopK でトレーニングされたモデルは、推論中に圧縮も適用された場合にのみ良好なパフォーマンスを発揮することも示しています。
エラー フィードバック手法では、単純な圧縮と比較してモデルの並列トレーニングは改善されませんが、品質をほとんど低下させることなく、圧縮なしでモデルを推論できることがわかりました。
最後に、AQ-SGD アプローチを適用すると、$ K=30\%$ の場合よりも TopK が強くなり、モデルのパフォーマンスが大幅に悪化します。

要約(オリジナル)

Large neural networks require enormous computational clusters of machines. Model-parallel training, when the model architecture is partitioned sequentially between workers, is a popular approach for training modern models. Information compression can be applied to decrease workers communication time, as it is often a bottleneck in such systems. This work explores how simultaneous compression of activations and gradients in model-parallel distributed training setup affects convergence. We analyze compression methods such as quantization and TopK compression, and also experiment with error compensation techniques. Moreover, we employ TopK with AQ-SGD per-batch error feedback approach. We conduct experiments on image classification and language model fine-tuning tasks. Our findings demonstrate that gradients require milder compression rates than activations. We observe that $K=10\%$ is the lowest TopK compression level, which does not harm model convergence severely. Experiments also show that models trained with TopK perform well only when compression is also applied during inference. We find that error feedback techniques do not improve model-parallel training compared to plain compression, but allow model inference without compression with almost no quality drop. Finally, when applied with the AQ-SGD approach, TopK stronger than with $ K=30\%$ worsens model performance significantly.

arxiv情報

著者 Mikhail Rudakov,Aleksandr Beznosikov,Yaroslav Kholodov,Alexander Gasnikov
発行日 2024-03-26 16:49:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, math.OC パーマリンク