MCGAN: Enhancing GAN Training with Regression-Based Generator Loss

要約

敵対的生成ネットワーク (GAN) は、忠実度の高いデータを生成するための強力なツールとして登場しました。
しかし、既存のアプローチの主なボトルネックは、発電機のトレーニングに対する監視が不足していることであり、その結果、多くの場合、減衰しない発振や満足のいく性能が得られません。
この問題に対処するために、モンテカルロ GAN (MCGAN) と呼ばれるアルゴリズムを提案します。
このアプローチは、革新的な生成損失関数 (用語的には回帰損失) を利用し、ジェネレーターのトレーニングを回帰タスクとして再定式化し、実際のデータの弁別器の出力と偽データの予想される弁別器の間の平均二乗誤差を最小限に抑えることによってジェネレーターのトレーニングを可能にします。
弁別可能性や最適性など、回帰損失の望ましい分析特性を実証し、効果的な生成器のトレーニングのためには、私たちの方法が弁別器に弱い条件を必要とすることを示します。
これらの特性は、回帰損失の強力な監視を活用することで GAN の最適性を維持しながらトレーニングの安定性を向上させるこのアプローチの強みを正当化します。
CIFAR-10 および CIFAR-100 データセットの数値結果は、提案された MCGAN が、品質、精度、トレーニングの安定性、学習された潜在空間の点で既存の最先端の GAN モデルを大幅かつ一貫して改善していることを示しています。
さらに、提案されたアルゴリズムは、空間画像、時系列データ、および時空間ビデオ データを生成するために、さまざまなバックボーン モデルと統合するための優れた柔軟性を示します。

要約(オリジナル)

Generative adversarial networks (GANs) have emerged as a powerful tool for generating high-fidelity data. However, the main bottleneck of existing approaches is the lack of supervision on the generator training, which often results in undamped oscillation and unsatisfactory performance. To address this issue, we propose an algorithm called Monte Carlo GAN (MCGAN). This approach, utilizing an innovative generative loss function, termly the regression loss, reformulates the generator training as a regression task and enables the generator training by minimizing the mean squared error between the discriminator’s output of real data and the expected discriminator of fake data. We demonstrate the desirable analytic properties of the regression loss, including discriminability and optimality, and show that our method requires a weaker condition on the discriminator for effective generator training. These properties justify the strength of this approach to improve the training stability while retaining the optimality of GAN by leveraging strong supervision of the regression loss. Numerical results on CIFAR-10 and CIFAR-100 datasets demonstrate that the proposed MCGAN significantly and consistently improves the existing state-of-the-art GAN models in terms of quality, accuracy, training stability, and learned latent space. Furthermore, the proposed algorithm exhibits great flexibility for integrating with a variety of backbone models to generate spatial images, temporal time-series, and spatio-temporal video data.

arxiv情報

著者 Baoren Xiao,Hao Ni,Weixin Yang
発行日 2024-05-27 14:15:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, math.PR パーマリンク