The GAN is dead; long live the GAN! A Modern GAN Baseline

要約

GAN はトレーニングが難しいという主張が広く広まっており、文献中の GAN アーキテクチャには経験的なトリックが散りばめられています。
私たちはこの主張に対する証拠を提供し、より原則的な方法で最新の GAN ベースラインを構築します。
まず、これまでアドホックなトリックを使って取り組んできたモードドロップと非収束の問題に対処する、適切に動作する正則化された相対論的 GAN 損失を導出します。
私たちは損失を数学的に分析し、既存のほとんどの相対論的損失とは異なり、局所収束保証が認められることを証明します。
第二に、新たな損失により、すべてのアドホックなトリックを破棄し、一般的な GAN で使用されている時代遅れのバックボーンを最新のアーキテクチャに置き換えることができます。
StyleGAN2 を例として使用して、新しいミニマリスト ベースラインである R3GAN をもたらす簡素化と最新化のロードマップを示します。
シンプルであるにもかかわらず、私たちのアプローチは、FFHQ、ImageNet、CIFAR、およびスタックド MNIST データセット上で StyleGAN2 を上回り、最先端の GAN や拡散モデルと比べても遜色ありません。

要約(オリジナル)

There is a widely-spread claim that GANs are difficult to train, and GAN architectures in the literature are littered with empirical tricks. We provide evidence against this claim and build a modern GAN baseline in a more principled manner. First, we derive a well-behaved regularized relativistic GAN loss that addresses issues of mode dropping and non-convergence that were previously tackled via a bag of ad-hoc tricks. We analyze our loss mathematically and prove that it admits local convergence guarantees, unlike most existing relativistic losses. Second, our new loss allows us to discard all ad-hoc tricks and replace outdated backbones used in common GANs with modern architectures. Using StyleGAN2 as an example, we present a roadmap of simplification and modernization that results in a new minimalist baseline — R3GAN. Despite being simple, our approach surpasses StyleGAN2 on FFHQ, ImageNet, CIFAR, and Stacked MNIST datasets, and compares favorably against state-of-the-art GANs and diffusion models.

arxiv情報

著者 Yiwen Huang,Aaron Gokaslan,Volodymyr Kuleshov,James Tompkin
発行日 2025-01-09 18:53:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク