要約
通信のオーバーヘッドは分散ディープラーニング、特に低速のイーサネット相互接続において重要な課題であり、現在のハードウェアのトレンドを考慮すると、通信が大きなボトルネックになる可能性があります。
勾配圧縮技術は SGD と Adam で検討されてきましたが、Lion オプティマイザには、その更新ベクトルが符号演算の出力であるため、直接的な量子化が可能になるという明確な利点があります。
ただし、単に通信用の更新を圧縮したり多数決などの技術を使用しただけでは、通信アルゴリズムが非効率でコンバージェンスが低下するため、エンドツーエンドの高速化にはつながりません。
私たちは、Lion による分散学習に重要な 3 つの要素、つまり通信方法の最適化、効果的な量子化方法の特定、運動量同期の必要性の評価を分析します。
私たちの調査結果は、Lion に適応した量子化技術と選択的な運動量同期により、コンバージェンスを維持しながら通信コストを大幅に削減できることを示しています。
これらを Lion Cub に統合することで、Lion と比較してエンドツーエンドのトレーニングを最大 5 倍高速化できます。
これは、分散トレーニングのためのコミュニケーション効率の高いソリューションとしての Lion の可能性を強調しています。
要約(オリジナル)
Communication overhead is a key challenge in distributed deep learning, especially on slower Ethernet interconnects, and given current hardware trends, communication is likely to become a major bottleneck. While gradient compression techniques have been explored for SGD and Adam, the Lion optimizer has the distinct advantage that its update vectors are the output of a sign operation, enabling straightforward quantization. However, simply compressing updates for communication and using techniques like majority voting fails to lead to end-to-end speedups due to inefficient communication algorithms and reduced convergence. We analyze three factors critical to distributed learning with Lion: optimizing communication methods, identifying effective quantization methods, and assessing the necessity of momentum synchronization. Our findings show that quantization techniques adapted to Lion and selective momentum synchronization can significantly reduce communication costs while maintaining convergence. We combine these into Lion Cub, which enables up to 5x speedups in end-to-end training compared to Lion. This highlights Lion’s potential as a communication-efficient solution for distributed training.
arxiv情報
著者 | Satoki Ishikawa,Tal Ben-Nun,Brian Van Essen,Rio Yokota,Nikoli Dryden |
発行日 | 2024-11-25 15:08:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google