How to train your VAE

要約

変分オートエンコーダ (VAE) は、機械学習における生成モデリングと表現学習の基礎となっています。
このペーパーでは、再構成精度と正則化の間のトレードオフを決定する証拠下限 (ELBO) 内の重要な要素であるカルバック ライブラー (KL) ダイバージェンスの解釈に焦点を当てて、VAE の微妙な側面を探ります。
一方、KL ダイバージェンスは、潜在変数の分布と潜在空間全体に構造を課す事前の調整を強制しますが、個々の変数の分布は制約されません。
提案された方法は、事後確率のガウス分布を混合して ELBO を再定義し、分散の崩壊を防ぐために正則化項を導入し、テクスチャのリアリズムを強化するために PatchGAN 識別子を採用します。
実装の詳細には、エンコーダーとデコーダーの両方の ResNetV2 アーキテクチャが含まれます。
この実験は、リアルな顔を生成する能力を実証し、VAE ベースの生成モデルを強化するための有望なソリューションを提供します。

要約(オリジナル)

Variational Autoencoders (VAEs) have become a cornerstone in generative modeling and representation learning within machine learning. This paper explores a nuanced aspect of VAEs, focusing on interpreting the Kullback Leibler (KL) Divergence, a critical component within the Evidence Lower Bound (ELBO) that governs the trade off between reconstruction accuracy and regularization. Meanwhile, the KL Divergence enforces alignment between latent variable distributions and a prior imposing a structure on the overall latent space but leaves individual variable distributions unconstrained. The proposed method redefines the ELBO with a mixture of Gaussians for the posterior probability, introduces a regularization term to prevent variance collapse, and employs a PatchGAN discriminator to enhance texture realism. Implementation details involve ResNetV2 architectures for both the Encoder and Decoder. The experiments demonstrate the ability to generate realistic faces, offering a promising solution for enhancing VAE based generative models.

arxiv情報

著者 Mariano Rivera
発行日 2024-02-08 17:37:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.AI, cs.CV, cs.LG, I.2.4 パーマリンク