Learning Disentangled Discrete Representations

要約

画像生成、モデルベースの強化学習、およびテキストから画像への生成における最近の成功は、離散潜在表現の経験的な利点を実証しましたが、その利点の背後にある理由は不明のままです。
標準的なガウス変分オートエンコーダ (VAE) をカスタマイズされたカテゴリカル変分オートエンコーダに置き換えることによって、離散潜在空間ともつれの解けた表現の間の関係を調査します。
カテゴリカル分布の基礎となるグリッド構造が、多変量ガウス分布に関連する回転不変性の問題を軽減し、もつれの解けた表現に対する効率的な帰納的事前分布として機能することを示します。
私たちは、もつれの解けた表現を学習するための離散 VAE の利点を実証する分析結果と経験的結果の両方を提供します。
さらに、もつれのない表現を優先する最初の教師なしモデル選択戦略を導入します。

要約(オリジナル)

Recent successes in image generation, model-based reinforcement learning, and text-to-image generation have demonstrated the empirical advantages of discrete latent representations, although the reasons behind their benefits remain unclear. We explore the relationship between discrete latent spaces and disentangled representations by replacing the standard Gaussian variational autoencoder (VAE) with a tailored categorical variational autoencoder. We show that the underlying grid structure of categorical distributions mitigates the problem of rotational invariance associated with multivariate Gaussian distributions, acting as an efficient inductive prior for disentangled representations. We provide both analytical and empirical findings that demonstrate the advantages of discrete VAEs for learning disentangled representations. Furthermore, we introduce the first unsupervised model selection strategy that favors disentangled representations.

arxiv情報

著者 David Friede,Christian Reimers,Heiner Stuckenschmidt,Mathias Niepert
発行日 2023-07-26 12:29:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク