Vision Lanauge Pre-training by Contrastive Learning with Cross-Modal Similarity Regulation

要約

タイトル:クロスモーダル類似度規制による対照学習によるビジョン言語の事前学習

要約:

– 本論文では、クロスモーダル対照学習における偽陰性の部分的な問題に取り組む。
– 相互情報量(MI)最適化の観点からこの問題を研究し、情報NCE損失がアンカーとポジティブの間のMIの下限値を最大化することは一般的に認識されているが、MIにネガティブも含めた最適化すべきであることを理論的に証明。
– より一般的な下限値フォームに基づいて、プログレッシブに洗練されたクロスモーダル類似度によって調整された対照学習戦略を提案し、適切に最適化された陰性のテキスト/画像を含むアンカーとのMIを誤って最小化することを避ける。
– この方法は、4つのクロスモーダルタスクで競争力があり、理論的なガイダンスの下で(部分的な)偽陰性サンプルの有益な影響と有害な影響を均衡させる。

要約(オリジナル)

Cross-modal contrastive learning in vision language pretraining (VLP) faces the challenge of (partial) false negatives. In this paper, we study this problem from the perspective of Mutual Information (MI) optimization. It is common sense that InfoNCE loss used in contrastive learning will maximize the lower bound of MI between anchors and their positives, while we theoretically prove that MI involving negatives also matters when noises commonly exist. Guided by a more general lower bound form for optimization, we propose a contrastive learning strategy regulated by progressively refined cross-modal similarity, to more accurately optimize MI between an image/text anchor and its negative texts/images instead of improperly minimizing it. Our method performs competitively on four downstream cross-modal tasks and systematically balances the beneficial and harmful effects of (partial) false negative samples under theoretical guidance.

arxiv情報

著者 Chaoya Jiang,Wei Ye,Haiyang Xu,Miang yan,Shikun Zhang,Jie Zhang,Fei Huang
発行日 2023-05-08 05:53:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク