Analyzing the Posterior Collapse in Hierarchical Variational Autoencoders

要約

階層変分オートエンコーダー (VAE) は、最も一般的な尤度ベースの生成モデルの 1 つです。
トップダウンの階層型 VAE により、深い潜在構造を効果的に学習し、事後崩壊などの問題を回避できるというコンセンサスがあります。
ここでは、必ずしもそうではなく、後方の崩壊の問題が残っていることを示します。
事後崩壊を思いとどまらせるために、部分的に固定されたエンコーダーを使用した新しい深い階層型 VAE を提案します。具体的には、離散コサイン変換を使用して上位の潜在変数を取得します。
一連の実験で、提案された変更により、潜在空間のより良い利用を実現できることがわかりました。
さらに、提案されたアプローチが圧縮と敵対的攻撃に対する堅牢性に役立つことを示します。

要約(オリジナル)

Hierarchical Variational Autoencoders (VAEs) are among the most popular likelihood-based generative models. There is rather a consensus that the top-down hierarchical VAEs allow to effectively learn deep latent structures and avoid problems like the posterior collapse. Here, we show that it is not necessarily the case and the problem of collapsing posteriors remains. To discourage the posterior collapse, we propose a new deep hierarchical VAE with a partly fixed encoder, specifically, we use Discrete Cosine Transform to obtain top latent variables. In a series of experiments, we observe that the proposed modification allows us to achieve better utilization of the latent space. Further, we demonstrate that the proposed approach can be useful for compression and robustness to adversarial attacks.

arxiv情報

著者 Anna Kuzina,Jakub M. Tomczak
発行日 2023-02-20 13:44:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク