Vision Language Pre-training by Contrastive Learning with Cross-Modal Similarity Regulation

要約

ビジョンランゲージ事前トレーニング(VLP)におけるクロスモーダル対比学習は、(部分的な)偽陰性という課題に直面しています。
この論文では、相互情報 (MI) 最適化の観点からこの問題を研究します。
対照学習で使用される InfoNCE 損失がアンカーとそのポジティブの間の MI の下限を最大化することは常識ですが、ノイズが一般的に存在する場合、ネガティブを含む MI も重要であることが理論的に証明されています。
最適化のためのより一般的な下限形式に基づいて、画像/テキストアンカーとそのネガティブテキスト/画像の間のMIを不適切に最小化するのではなく、より正確に最適化するために、段階的に洗練されたクロスモーダル類似性によって制御される対照的な学習戦略を提案します。
私たちのメソッドは、4 つの下流のクロスモーダル タスクを競合的に実行し、理論的な指針に基づいて、(部分的な) 偽陰性サンプルの有益な効果と有害な効果のバランスを体系的にとります。

要約(オリジナル)

Cross-modal contrastive learning in vision language pretraining (VLP) faces the challenge of (partial) false negatives. In this paper, we study this problem from the perspective of Mutual Information (MI) optimization. It is common sense that InfoNCE loss used in contrastive learning will maximize the lower bound of MI between anchors and their positives, while we theoretically prove that MI involving negatives also matters when noises commonly exist. Guided by a more general lower bound form for optimization, we propose a contrastive learning strategy regulated by progressively refined cross-modal similarity, to more accurately optimize MI between an image/text anchor and its negative texts/images instead of improperly minimizing it. Our method performs competitively on four downstream cross-modal tasks and systematically balances the beneficial and harmful effects of (partial) false negative samples under theoretical guidance.

arxiv情報

著者 Chaoya Jiang,Wei Ye,Haiyang Xu,Miang yan,Shikun Zhang,Jie Zhang,Fei Huang
発行日 2023-06-22 06:44:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク