Enhanced Multimodal Representation Learning with Cross-modal KD

要約

この論文では、クロスモーダル知識蒸留 (KD) を通じてマルチモーダル表現学習を強化するために、トレーニング時にのみ利用できる補助モダリティを活用するタスクについて検討します。
広く採用されている相互情報量最大化ベースの目標は、弱い教師の近道的な解決策、つまり教師モデルを生徒モデルと同じくらい弱くするだけで最大の相互情報量を達成することにつながります。
このような弱い解決策を防ぐために、追加の目的項、つまり教師と補助モダリティ モデル間の相互情報量を導入します。
さらに、学生と教師の間の情報ギャップを狭めるために、学生に与えられた教師の条件付きエントロピーを最小化することをさらに提案します。
対照学習と敵対学習に基づく新しいトレーニング スキームは、それぞれ相互情報量と条件付きエントロピーを最適化するように設計されています。
3 つの一般的なマルチモーダル ベンチマーク データセットでの実験結果は、提案された方法がビデオ認識、ビデオ検索、および感情分類に対する一連の最先端のアプローチよりも優れていることを示しています。

要約(オリジナル)

This paper explores the tasks of leveraging auxiliary modalities which are only available at training to enhance multimodal representation learning through cross-modal Knowledge Distillation (KD). The widely adopted mutual information maximization-based objective leads to a short-cut solution of the weak teacher, i.e., achieving the maximum mutual information by simply making the teacher model as weak as the student model. To prevent such a weak solution, we introduce an additional objective term, i.e., the mutual information between the teacher and the auxiliary modality model. Besides, to narrow down the information gap between the student and teacher, we further propose to minimize the conditional entropy of the teacher given the student. Novel training schemes based on contrastive learning and adversarial learning are designed to optimize the mutual information and the conditional entropy, respectively. Experimental results on three popular multimodal benchmark datasets have shown that the proposed method outperforms a range of state-of-the-art approaches for video recognition, video retrieval and emotion classification.

arxiv情報

著者 Mengxi Chen,Linyu Xing,Yu Wang,Ya Zhang
発行日 2023-06-13 09:35:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク