要約
分離表現学習は、データセットの基礎となる生成因子を、互いに独立した潜在表現で表現することを目的とする。我々の研究では、離散変分オートエンコーダ(VAE)に基づくモデルを提案する。我々は、離散的な表現を学習することが、連続的な表現を学習するよりも、離散的な表現を学習する方が、分離を容易にするという利点を実証する。さらに、離散化をさらに促進するために、モデルに帰納的バイアスを組み込むことを提案する。具体的には、グローバルコードブックからのスカラー値による潜在表現の潜在変数のスカラー量子化を提案し、帰納的バイアスとして全相関項を最適化に加える。FactorQVAEと呼ばれる我々の手法は、最適化に基づく離散表現学習と離散表現を組み合わせたものであり、再構成性能を向上させながら、2つの離散表現メトリクス(DCIとInfoMEC)の観点から、以前の離散表現手法を凌駕する。我々のコードはhttps://github.com/ituvisionlab/FactorQVAE。
要約(オリジナル)
Disentangled representation learning aims to represent the underlying generative factors of a dataset in a latent representation independently of one another. In our work, we propose a discrete variational autoencoder (VAE) based model where the ground truth information about the generative factors are not provided to the model. We demonstrate the advantages of learning discrete representations over learning continuous representations in facilitating disentanglement. Furthermore, we propose incorporating an inductive bias into the model to further enhance disentanglement. Precisely, we propose scalar quantization of the latent variables in a latent representation with scalar values from a global codebook, and we add a total correlation term to the optimization as an inductive bias. Our method called FactorQVAE combines optimization based disentanglement approaches with discrete representation learning, and it outperforms the former disentanglement methods in terms of two disentanglement metrics (DCI and InfoMEC) while improving the reconstruction performance. Our code can be found at https://github.com/ituvisionlab/FactorQVAE.
arxiv情報
著者 | Gulcin Baykal,Melih Kandemir,Gozde Unal |
発行日 | 2025-02-03 07:41:44+00:00 |
arxivサイト | arxiv_id(pdf) |