Unity by Diversity: Improved Representation Learning in Multimodal VAEs

要約

マルチモーダルデータ用の変分オートエンコーダは、表現学習、条件生成、インピュテーションなど、データ解析における多くのタスクに有望である。現在のアーキテクチャは、エンコーダ出力、デコーダ入力、またはその両方をモダリティ間で共有し、共有表現を学習する。このようなアーキテクチャは、モデルに厳しい制約を課す。本研究では、これらのハードな制約をソフトな制約に置き換えることで、より優れた潜在表現が得られることを示す。我々は新しい専門家混合事前分布を提案し、各モダリティの潜在表現を、共有された集約的事後分布へとソフトに導く。このアプローチにより、優れた潜在表現が得られ、各エンコーディングは、圧縮されていない元の特徴から、より良く情報を保持することができる。複数のベンチマークデータセットと2つの困難な実世界データセットを用いた広範な実験において、既存の手法と比較して、学習された潜在表現と欠損データモダリティのインピュテーションが改善されたことを示す。

要約(オリジナル)

Variational Autoencoders for multimodal data hold promise for many tasks in data analysis, such as representation learning, conditional generation, and imputation. Current architectures either share the encoder output, decoder input, or both across modalities to learn a shared representation. Such architectures impose hard constraints on the model. In this work, we show that a better latent representation can be obtained by replacing these hard constraints with a soft constraint. We propose a new mixture-of-experts prior, softly guiding each modality’s latent representation towards a shared aggregate posterior. This approach results in a superior latent representation and allows each encoding to preserve information better from its uncompressed original features. In extensive experiments on multiple benchmark datasets and two challenging real-world datasets, we show improved learned latent representations and imputation of missing data modalities compared to existing methods.

arxiv情報

著者 Thomas M. Sutter,Yang Meng,Andrea Agostini,Daphné Chopard,Norbert Fortin,Julia E. Vogt,Bahbak Shahbaba,Stephan Mandt
発行日 2024-11-01 10:19:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク