AS-IntroVAE: Adversarial Similarity Distance Makes Robust IntroVAE

要約

最近、IntroVAE や S-IntroVAE などの内省的モデルは、画像の生成と再構成のタスクに優れています。
イントロスペクティブ モデルの主な特徴は、VAE の敵対的学習であり、エンコーダーは本物の画像と偽の (つまり、合成された) 画像を区別しようとします。
ただし、実際の画像と偽の画像の違いを評価するための効果的なメトリックが利用できないため、事後崩壊と勾配消失の問題が依然として存在し、合成画像の忠実度が低下します。
この論文では、Adversarial Similarity Distance Introspective Variational Autoencoder (AS-IntroVAE) と呼ばれる IntroVAE の新しいバリエーションを提案します。
勾配消失問題を理論的に分析し、2-Wasserstein 距離とカーネル トリックを使用して、新しい敵対的類似距離 (AS-Distance) を構築します。
AS-Distance と KL-Divergence の加重アニーリングにより、AS-IntroVAE は安定した高品質の画像を生成できます。
事後崩壊の問題は、バッチごとに画像を変換して、潜在空間の事前分布によりよく適合するようにすることで解決されます。
画像ごとのアプローチと比較して、この戦略は潜在空間でより多様な分布を促進し、モデルが非常に多様な画像を生成できるようにします。
ベンチマーク データセットでの包括的な実験により、画像生成および再構成タスクに対する AS-IntroVAE の有効性が実証されました。

要約(オリジナル)

Recently, introspective models like IntroVAE and S-IntroVAE have excelled in image generation and reconstruction tasks. The principal characteristic of introspective models is the adversarial learning of VAE, where the encoder attempts to distinguish between the real and the fake (i.e., synthesized) images. However, due to the unavailability of an effective metric to evaluate the difference between the real and the fake images, the posterior collapse and the vanishing gradient problem still exist, reducing the fidelity of the synthesized images. In this paper, we propose a new variation of IntroVAE called Adversarial Similarity Distance Introspective Variational Autoencoder (AS-IntroVAE). We theoretically analyze the vanishing gradient problem and construct a new Adversarial Similarity Distance (AS-Distance) using the 2-Wasserstein distance and the kernel trick. With weight annealing on AS-Distance and KL-Divergence, the AS-IntroVAE are able to generate stable and high-quality images. The posterior collapse problem is addressed by making per-batch attempts to transform the image so that it better fits the prior distribution in the latent space. Compared with the per-image approach, this strategy fosters more diverse distributions in the latent space, allowing our model to produce images of great diversity. Comprehensive experiments on benchmark datasets demonstrate the effectiveness of AS-IntroVAE on image generation and reconstruction tasks.

arxiv情報

著者 Changjie Lu,Shen Zheng,Zirui Wang,Omar Dib,Gaurav Gupta
発行日 2022-10-31 10:46:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク