Vision Langauge Pre-training by Contrastive Learning with Cross-Modal Similarity Regulation

要約

タイトル: クロスモーダル類似性規制による対比的学習によるビジョン言語事前学習

要約:
– ビジョン言語事前学習(VLP)におけるクロスモーダル対比的学習は(一部)偽陰性の課題に直面しています。
– 本論文では、相互情報量(MI)最適化の観点からこの問題について研究しました。
– 対比的学習で使用されるInfoNCE損失がアンカーとそのpositives間のMIの下限を最大化することは常識ですが、MIにはノイズが一般的に存在する場合にネガティブと関係します。
– 最適化のためのより一般的な下限形式にガイドされ、進行的に精緻なクロスモーダル類似性による対比的学習戦略を提案しています。これにより、不適切な最小化ではなく、画像/テキストアンカーとネガティブテキスト/画像の間のMIを正確に最適化します。
– 本手法は、理論的なガイドに基づいて(部分)偽陰性サンプルの有益な・有害な影響をシステム的にバランスするとともに、4つの下流クロスモーダルタスクで競争力を持って実行されます。

要約(オリジナル)

Cross-modal contrastive learning in vision language pretraining (VLP) faces the challenge of (partial) false negatives. In this paper, we study this problem from the perspective of Mutual Information (MI) optimization. It is common sense that InfoNCE loss used in contrastive learning will maximize the lower bound of MI between anchors and their positives, while we theoretically prove that MI involving negatives also matters when noises commonly exist. Guided by a more general lower bound form for optimization, we propose a contrastive learning strategy regulated by progressively refined cross-modal similarity, to more accurately optimize MI between an image/text anchor and its negative texts/images instead of improperly minimizing it. Our method performs competitively on four downstream cross-modal tasks and systematically balances the beneficial and harmful effects of (partial) false negative samples under theoretical guidance.

arxiv情報

著者 Chaoya Jiang,Wei Ye,Haiyang Xu,Miang yan,Shikun Zhang,Jie Zhang,Fei Huang
発行日 2023-05-09 08:10:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク