ParaGAN: A Scalable Distributed Training Framework for Generative Adversarial Networks

要約

生成人工知能の最近の進歩により、数多くのアプリケーション、特にリアルな写真やビデオを合成するために不可欠な敵対的生成ネットワーク (GAN) に関連するアプリケーションが促進されています。
ただし、GAN は計算量が多く、数値的に不安定であるため、効率的にトレーニングすることは依然として重要な課題です。
既存の方法では、トレーニングに数日、さらには数週間かかることが多く、リソースと時間に大きな制約が生じます。
この研究では、非同期トレーニングと非対称最適化ポリシーを活用して GAN トレーニングを高速化する、スケーラブルな分散 GAN トレーニング フレームワークである ParaGAN を紹介します。
ParaGAN は、輻輳を認識したデータ パイプラインとハードウェアを認識したレイアウト変換を採用してアクセラレータの使用率を高め、その結果スループットが 30% 以上向上しました。
ParaGAN を使用すると、BigGAN のトレーニング時間を 15 日から 14 時間に短縮しながら、91% のスケーリング効率を達成できます。
さらに、ParaGAN は、BigGAN を使用した前例のない高解像度画像生成を可能にします。

要約(オリジナル)

Recent advances in Generative Artificial Intelligence have fueled numerous applications, particularly those involving Generative Adversarial Networks (GANs), which are essential for synthesizing realistic photos and videos. However, efficiently training GANs remains a critical challenge due to their computationally intensive and numerically unstable nature. Existing methods often require days or even weeks for training, posing significant resource and time constraints. In this work, we introduce ParaGAN, a scalable distributed GAN training framework that leverages asynchronous training and an asymmetric optimization policy to accelerate GAN training. ParaGAN employs a congestion-aware data pipeline and hardware-aware layout transformation to enhance accelerator utilization, resulting in over 30% improvements in throughput. With ParaGAN, we reduce the training time of BigGAN from 15 days to 14 hours while achieving 91% scaling efficiency. Additionally, ParaGAN enables unprecedented high-resolution image generation using BigGAN.

arxiv情報

著者 Ziji Shi,Jialin Li,Yang You
発行日 2024-11-06 15:40:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC パーマリンク