Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning

要約

対照的な損失は、複数のモダリティから表現を学習する際にますます使用されています。
制限では、対照的な損失の性質により、モダリティが潜在空間で互いに正確に一致するようになります。
それでも、モダリティの調整が下流のタスクのパフォーマンスにどのように影響するかは未解決の問題です。
この論文では、情報理論の議論に基づいて、最初に、正確なモダリティのアライメントが下流の予測タスクにとって一般的に最適ではないことを証明します。
したがって、より良いパフォーマンスの鍵は、完全なモダリティの調整ではなく、意味のある潜在的なモダリティ構造にあることを提唱します。
この目的のために、潜在的なモダリティ構造を構築するための 3 つの一般的なアプローチを提案します。
具体的には、1)モダリティ内正則化のための深い特徴分離損失を設計します。
2) モダリティ間の正則化のためのブラウンブリッジ損失。
3) モダリティ内およびモダリティ間の両方の正則化の幾何学的一貫性の損失。
2 つの一般的なマルチモーダル表現学習フレームワーク (CLIP ベースの 2 タワー モデルと ALBEF ベースのフュージョン モデル) で広範な実験が行われています。
ゼロ/少数ショット画像分類、画像テキスト検索、視覚的質問応答、視覚的推論、視覚的含意など、さまざまなタスクでモデルをテストします。
私たちの方法は、潜在的なモダリティ構造の正則化に関する提案されたアプローチの有効性と一般化可能性を実証し、既存の方法よりも一貫した改善を達成します。

要約(オリジナル)

Contrastive loss has been increasingly used in learning representations from multiple modalities. In the limit, the nature of the contrastive loss encourages modalities to exactly match each other in the latent space. Yet it remains an open question how the modality alignment affects the downstream task performance. In this paper, based on an information-theoretic argument, we first prove that exact modality alignment is sub-optimal in general for downstream prediction tasks. Hence we advocate that the key of better performance lies in meaningful latent modality structures instead of perfect modality alignment. To this end, we propose three general approaches to construct latent modality structures. Specifically, we design 1) a deep feature separation loss for intra-modality regularization; 2) a Brownian-bridge loss for inter-modality regularization; and 3) a geometric consistency loss for both intra- and inter-modality regularization. Extensive experiments are conducted on two popular multi-modal representation learning frameworks: the CLIP-based two-tower model and the ALBEF-based fusion model. We test our model on a variety of tasks including zero/few-shot image classification, image-text retrieval, visual question answering, visual reasoning, and visual entailment. Our method achieves consistent improvements over existing methods, demonstrating the effectiveness and generalizability of our proposed approach on latent modality structure regularization.

arxiv情報

著者 Qian Jiang,Changyou Chen,Han Zhao,Liqun Chen,Qing Ping,Son Dinh Tran,Yi Xu,Belinda Zeng,Trishul Chilimbi
発行日 2023-03-10 14:38:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク