UniS-MMC: Multimodal Classification via Unimodality-supervised Multimodal Contrastive Learning

要約

マルチモーダル学習は、人間を模倣して、さまざまな下流タスクについて複数のモダリティから補完的な情報を取得することを目的としています。
しかし、従来の集約ベースのマルチモーダル融合手法は、モダリティ間の関係を無視し、各モダリティを同等に扱い、センサーノイズの影響を受けるため、マルチモーダル学習のパフォーマンスが低下します。
この研究では、単峰性予測の弱い監視の下で、より信頼性の高い多峰性表現を探索するための新しい多峰性対比法を提案します。
具体的には、最初にタスク関連の単峰表現と、導入された単峰予測タスクからの単峰予測を取得します。
次に、単峰性予測の監視の下、設計された多峰性対比法によって、単峰性表現がより効果的な表現と調整されます。
2 つの画像テキスト分類ベンチマーク UPMC-Food-101 と N24News の融合特徴を用いた実験結果は、私たちが提案したユニモダリティ教師付きマルチモーダル対照 UniS-MMC 学習方法が現在の最先端のマルチモーダル方法よりも優れていることを示しています。
詳細なアブレーションの研究と分析により、私たちが提案した方法の利点がさらに実証されました。

要約(オリジナル)

Multimodal learning aims to imitate human beings to acquire complementary information from multiple modalities for various downstream tasks. However, traditional aggregation-based multimodal fusion methods ignore the inter-modality relationship, treat each modality equally, suffer sensor noise, and thus reduce multimodal learning performance. In this work, we propose a novel multimodal contrastive method to explore more reliable multimodal representations under the weak supervision of unimodal predicting. Specifically, we first capture task-related unimodal representations and the unimodal predictions from the introduced unimodal predicting task. Then the unimodal representations are aligned with the more effective one by the designed multimodal contrastive method under the supervision of the unimodal predictions. Experimental results with fused features on two image-text classification benchmarks UPMC-Food-101 and N24News show that our proposed Unimodality-Supervised MultiModal Contrastive UniS-MMC learning method outperforms current state-of-the-art multimodal methods. The detailed ablation study and analysis further demonstrate the advantage of our proposed method.

arxiv情報

著者 Heqing Zou,Meng Shen,Chen Chen,Yuchen Hu,Deepu Rajan,Eng Siong Chng
発行日 2023-05-16 09:18:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク