Learning Multimodal VAEs through Mutual Supervision

要約

マルチモーダル VAE は、異種データ (視覚、言語など) の同時分布をモデル化すると同時に、そのようなモダリティ間で共有される表現を取得しようとします。
従来の研究では、通常、明示的な製品、混合物、または他のそのような因数分解を通じて、認識モデルで特異な表現を直接調整することにより、モダリティからの情報を組み合わせていました。
ここでは、半教師付き VAE を転用してモダリティ間の情報を暗黙的に相互監視を通じて組み合わせることで、このような明示的な組み合わせを回避する新しい代替手段である MEME を紹介します。
この定式化により、一部のモダリティが完全に欠落している可能性がある部分的に観測されたデータからの学習が自然に可能になります。これは、ほとんどの既存のアプローチでは処理できないか、限られた範囲で処理できます。
MEME は、MNIST-SVHN (画像 – 画像) および CUB (画像 – テキスト) データセットの部分的および完全な観測スキームの両方で、標準メトリックのベースラインよりも優れていることを示しています。
また、相互監督によって学習された表現の品質を標準的なアプローチと対比し、データ間の関連性を捉える能力に興味深い傾向を観察します。

要約(オリジナル)

Multimodal VAEs seek to model the joint distribution over heterogeneous data (e.g.\ vision, language), whilst also capturing a shared representation across such modalities. Prior work has typically combined information from the modalities by reconciling idiosyncratic representations directly in the recognition model through explicit products, mixtures, or other such factorisations. Here we introduce a novel alternative, the MEME, that avoids such explicit combinations by repurposing semi-supervised VAEs to combine information between modalities implicitly through mutual supervision. This formulation naturally allows learning from partially-observed data where some modalities can be entirely missing — something that most existing approaches either cannot handle, or do so to a limited extent. We demonstrate that MEME outperforms baselines on standard metrics across both partial and complete observation schemes on the MNIST-SVHN (image-image) and CUB (image-text) datasets. We also contrast the quality of the representations learnt by mutual supervision against standard approaches and observe interesting trends in its ability to capture relatedness between data.

arxiv情報

著者 Tom Joy,Yuge Shi,Philip H. S. Torr,Tom Rainforth,Sebastian M. Schmon,N. Siddharth
発行日 2022-12-16 09:29:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク