Improving Multimodal Joint Variational Autoencoders through Normalizing Flows and Correlation Analysis

要約

我々は、結合分布から条件付きで任意の数の複雑なモダリティを生成できる新しいマルチモーダル変分オートエンコーダを提案します。
単峰事後分析は、モダリティ間で共有された情報を保存する深度正規相関分析埋め込みに基づいて条件付けされており、より一貫性のあるクロスモーダル生成につながります。
さらに、正規化フローを使用して単峰事後分布を強化し、より多様なデータ生成を実現します。
最後に、他のいくつかのモダリティから 1 つのモダリティを推論するために、専門家の製品を使用することを提案します。これにより、モデルを任意の数のモダリティに拡張可能になります。
我々の方法により、尤度推定、世代の多様性、特にいくつかのデータセットの条件付き世代におけるコヒーレンスメトリクスが改善されることを実証します。

要約(オリジナル)

We propose a new multimodal variational autoencoder that enables to generate from the joint distribution and conditionally to any number of complex modalities. The unimodal posteriors are conditioned on the Deep Canonical Correlation Analysis embeddings which preserve the shared information across modalities leading to more coherent cross-modal generations. Furthermore, we use Normalizing Flows to enrich the unimodal posteriors and achieve more diverse data generation. Finally, we propose to use a Product of Experts for inferring one modality from several others which makes the model scalable to any number of modalities. We demonstrate that our method improves likelihood estimates, diversity of the generations and in particular coherence metrics in the conditional generations on several datasets.

arxiv情報

著者 Agathe Senellart,Clément Chadebec,Stéphanie Allassonnière
発行日 2023-05-19 17:15:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク