要約
変分オートエンコーダ (VAE) は、モデルによって生成された潜在表現が入力から独立してしまう \textit{事後崩壊} 現象に悩まされることが知られています。
これは入力の表現の劣化につながりますが、これは VAE の目的関数の制限に起因すると考えられます。
この研究では、この問題に対する新しい解決策である、変分オートエンコーダのためのコントラスト正則化 (CR-VAE) を提案します。
私たちのアプローチの核心は、類似した視覚入力の表現間の相互情報を最大化する対照的な目的で元の VAE を拡張することです。
この戦略により、入力とその潜在表現の間の情報の流れが最大化され、事後崩壊が効果的に回避されます。
私たちは一連の視覚データセットに基づいてこの方法を評価し、CR-VAE が後部虚脱の予防において最先端のアプローチよりも優れていることを実証しました。
要約(オリジナル)
The Variational Autoencoder (VAE) is known to suffer from the phenomenon of \textit{posterior collapse}, where the latent representations generated by the model become independent of the inputs. This leads to degenerated representations of the input, which is attributed to the limitations of the VAE’s objective function. In this work, we propose a novel solution to this issue, the Contrastive Regularization for Variational Autoencoders (CR-VAE). The core of our approach is to augment the original VAE with a contrastive objective that maximizes the mutual information between the representations of similar visual inputs. This strategy ensures that the information flow between the input and its latent representation is maximized, effectively avoiding posterior collapse. We evaluate our method on a series of visual datasets and demonstrate, that CR-VAE outperforms state-of-the-art approaches in preventing posterior collapse.
arxiv情報
著者 | Fotios Lygerakis. Elmar Rueckert |
発行日 | 2023-09-06 13:05:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google