Dion: A Communication-Efficient Optimizer for Large Models

要約

大規模なAIモデルを効率的にトレーニングするには、複数のアクセラレータに計算を分散させる必要がありますが、この場合、特に勾配の同期時に、しばしば大きな通信オーバーヘッドが発生します。我々は、標準的な分散トレーニング(DDP、FSDPなど)の同期セマンティクスを維持しつつ、I/Oコストを大幅に削減した通信効率の高いオプティマイザであるDionを紹介する。完全な勾配行列を同期させる従来のオプティマイザとは異なり、Dionはデバイスローカルの運動量バッファを用いた正規直交更新を活用することで、完全な勾配交換の必要性を排除しています。さらに、トレーニング中に大きな行列を再構築することを回避する効率的なシャーディング戦略をサポートしています。

要約(オリジナル)

Training large AI models efficiently requires distributing computation across multiple accelerators, but this often incurs significant communication overhead — especially during gradient synchronization. We introduce Dion, a communication-efficient optimizer that retains the synchronous semantics of standard distributed training (e.g., DDP, FSDP) while substantially reducing I/O costs. Unlike conventional optimizers that synchronize full gradient matrices, Dion leverages orthonormalized updates with device-local momentum buffers, eliminating the need for full gradient exchange. It further supports an efficient sharding strategy that avoids reconstructing large matrices during training.

arxiv情報

著者 Kwangjun Ahn,Byron Xu
発行日 2025-04-07 17:49:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, math.OC パーマリンク