要約
大規模なAIモデルを効率的にトレーニングするには、複数のアクセラレータに計算を分散させる必要がありますが、この場合、特に勾配の同期時に、しばしば大きな通信オーバーヘッドが発生します。我々は、標準的な分散トレーニング(DDP、FSDPなど)の同期セマンティクスを維持しつつ、I/Oコストを大幅に削減した通信効率の高いオプティマイザであるDionを紹介する。完全な勾配行列を同期させる従来のオプティマイザとは異なり、Dionはデバイスローカルの運動量バッファを用いた正規直交更新を活用することで、完全な勾配交換の必要性を排除しています。さらに、トレーニング中に大きな行列を再構築することを回避する効率的なシャーディング戦略をサポートしています。
要約(オリジナル)
Training large AI models efficiently requires distributing computation across multiple accelerators, but this often incurs significant communication overhead — especially during gradient synchronization. We introduce Dion, a communication-efficient optimizer that retains the synchronous semantics of standard distributed training (e.g., DDP, FSDP) while substantially reducing I/O costs. Unlike conventional optimizers that synchronize full gradient matrices, Dion leverages orthonormalized updates with device-local momentum buffers, eliminating the need for full gradient exchange. It further supports an efficient sharding strategy that avoids reconstructing large matrices during training.
arxiv情報
著者 | Kwangjun Ahn,Byron Xu |
発行日 | 2025-04-07 17:49:37+00:00 |
arxivサイト | arxiv_id(pdf) |