Unity by Diversity: Improved Representation Learning in Multimodal VAEs

要約

マルチモーダル データ用の変分オートエンコーダーは、表現学習、条件付き生成、代入など、データ分析における多くのタスクに有望です。
現在のアーキテクチャは、エンコーダ出力、デコーダ入力、またはその両方をモダリティ間で共有して、共有表現を学習します。
このようなアーキテクチャはモデルに厳しい制約を課します。
この研究では、これらのハード制約をソフト制約に置き換えることによって、より良い潜在表現が得られることを示します。
我々は、事前に新しい専門家の混合を提案し、各モダリティの潜在的な表現を共有された集合的な事後へとソフトに導きます。
このアプローチにより、優れた潜在表現が得られ、各エンコーディングで非圧縮の元の特徴からの情報をより適切に保存できるようになります。
複数のベンチマーク データセットと 2 つの困難な現実世界のデータセットに対する広範な実験で、既存の手法と比較して学習された潜在表現と欠損データ モダリティの代入が改善されたことを示しました。

要約(オリジナル)

Variational Autoencoders for multimodal data hold promise for many tasks in data analysis, such as representation learning, conditional generation, and imputation. Current architectures either share the encoder output, decoder input, or both across modalities to learn a shared representation. Such architectures impose hard constraints on the model. In this work, we show that a better latent representation can be obtained by replacing these hard constraints with a soft constraint. We propose a new mixture-of-experts prior, softly guiding each modality’s latent representation towards a shared aggregate posterior. This approach results in a superior latent representation and allows each encoding to preserve information better from its uncompressed original features. In extensive experiments on multiple benchmark datasets and two challenging real-world datasets, we show improved learned latent representations and imputation of missing data modalities compared to existing methods.

arxiv情報

著者 Thomas M. Sutter,Yang Meng,Andrea Agostini,Daphné Chopard,Norbert Fortin,Julia E. Vogt,Bahbak Shahbaba,Stephan Mandt
発行日 2024-05-31 15:14:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク