要約
最近、IntroVAEやS-IntroVAEのような内省的モデルは、画像の生成と再構成のタスクに優れています。
イントロスペクティブモデルの主な特徴は、VAEの敵対的学習であり、エンコーダーは実際の画像と偽の(つまり合成された)画像を区別しようとします。
ただし、実際の画像と偽の画像の違いを評価するための効果的なメトリックが利用できないため、後方崩壊と勾配消失問題が依然として存在し、合成された画像の忠実度が低下します。
この論文では、敵対的類似性距離イントロスペクティブ変分オートエンコーダ(AS-IntroVAE)と呼ばれるIntroVAEの新しいバリエーションを提案します。
勾配消失問題を理論的に分析し、2-ワッサースタイン距離とカーネルトリックを使用して、新しい敵対的類似距離(AS-Distance)を構築します。
AS-DistanceとKL-Divergenceでのウェイトアニーリングにより、AS-IntroVAEは安定した高品質の画像を生成できます。
事後崩壊の問題は、バッチごとに画像を変換して、潜在空間の事前分布によりよく適合するようにすることで対処されます。
画像ごとのアプローチと比較して、この戦略は潜在空間でより多様な分布を促進し、モデルが非常に多様な画像を生成できるようにします。
ベンチマークデータセットでの包括的な実験は、画像の生成と再構成のタスクにおけるAS-IntroVAEの有効性を示しています。
要約(オリジナル)
Recently, introspective models like IntroVAE and S-IntroVAE have excelled in image generation and reconstruction tasks. The principal characteristic of introspective models is the adversarial learning of VAE, where the encoder attempts to distinguish between the real and the fake (i.e., synthesized) images. However, due to the unavailability of an effective metric to evaluate the difference between the real and the fake images, the posterior collapse and the vanishing gradient problem still exist, reducing the fidelity of the synthesized images. In this paper, we propose a new variation of IntroVAE called Adversarial Similarity Distance Introspective Variational Autoencoder (AS-IntroVAE). We theoretically analyze the vanishing gradient problem and construct a new Adversarial Similarity Distance (AS-Distance) using the 2-Wasserstein distance and the kernel trick. With weight annealing on AS-Distance and KL-Divergence, the AS-IntroVAE are able to generate stable and high-quality images. The posterior collapse problem is addressed by making per-batch attempts to transform the image so that it better fits the prior distribution in the latent space. Compared with the per-image approach, this strategy fosters more diverse distributions in the latent space, allowing our model to produce images of great diversity. Comprehensive experiments on benchmark datasets demonstrate the effectiveness of AS-IntroVAE on image generation and reconstruction tasks.
arxiv情報
著者 | Changjie Lu,Shen Zheng,Zirui Wang,Omar Dib,Gaurav Gupta |
発行日 | 2022-06-28 11:40:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google