Unity by Diversity: Improved Representation Learning in Multimodal VAEs

要約

マルチモーダル データ用の変分オートエンコーダーは、表現学習、条件付き生成、代入など、データ分析における多くのタスクに有望です。
現在のアーキテクチャは、エンコーダ出力、デコーダ入力、またはその両方をモダリティ間で共有して、共有表現を学習します。
このようなアーキテクチャはモデルに厳しい制約を課します。
この研究では、これらのハード制約をソフト制約に置き換えることによって、より良い潜在表現が得られることを示します。
我々は、事前に新しい専門家の混合を提案し、各モダリティの潜在表現を共有された集合的な事後へとソフトに導きます。
このアプローチにより、優れた潜在表現が得られ、各エンコーディングで非圧縮の元の特徴からの情報をより適切に保存できるようになります。
複数のベンチマーク データセットと困難な現実世界の神経科学データセットに対する広範な実験で、既存の手法と比較して、学習された潜在表現と欠損データ モダリティの代入が改善されたことを示します。

要約(オリジナル)

Variational Autoencoders for multimodal data hold promise for many tasks in data analysis, such as representation learning, conditional generation, and imputation. Current architectures either share the encoder output, decoder input, or both across modalities to learn a shared representation. Such architectures impose hard constraints on the model. In this work, we show that a better latent representation can be obtained by replacing these hard constraints with a soft constraint. We propose a new mixture-of-experts prior, softly guiding each modality’s latent representation towards a shared aggregate posterior. This approach results in a superior latent representation and allows each encoding to preserve information from its uncompressed original features better. In extensive experiments on multiple benchmark datasets and a challenging real-world neuroscience data set, we show improved learned latent representations and imputation of missing data modalities compared to existing methods.

arxiv情報

著者 Thomas M. Sutter,Yang Meng,Norbert Fortin,Julia E. Vogt,Stephan Mandt
発行日 2024-03-08 13:29:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク