RankCLIP: Ranking-Consistent Language-Image Pretraining

要約

CLIP などの自己教師あり対比学習モデルは、多くの下流タスクにおける視覚言語モデルの新しいベンチマークを設定しました。
ただし、厳密な 1 対 1 マッピングに依存しているため、テキストと画像の間および内部の複雑で多くの場合多面的な関係が見落とされます。
この目的を達成するために、CLIP とそのバリアントの厳格な 1 対 1 マッチング フレームワークを超えて拡張される新しい事前トレーニング方法である RANKCLIP を導入します。
従来のペアごとの損失をリストごとに拡張し、モーダル内およびモーダル間の両方のランキング一貫性を活用することで、RANKCLIP は位置合わせプロセスを改善し、各モダリティ間および各モダリティ内の微妙な多対多の関係をキャプチャできるようにします。
包括的な実験を通じて、さまざまな下流タスクにおける RANKCLIP の有効性を実証し、特にゼロショット分類において最先端の手法と比較して大幅な向上を達成し、この強化された学習プロセスの重要性を強調しています。

要約(オリジナル)

Self-supervised contrastive learning models, such as CLIP, have set new benchmarks for vision-language models in many downstream tasks. However, their dependency on rigid one-to-one mappings overlooks the complex and often multifaceted relationships between and within texts and images. To this end, we introduce RANKCLIP, a novel pretraining method that extends beyond the rigid one-to-one matching framework of CLIP and its variants. By extending the traditional pair-wise loss to list-wise, and leveraging both in-modal and cross-modal ranking consistency, RANKCLIP improves the alignment process, enabling it to capture the nuanced many-to-many relationships between and within each modality. Through comprehensive experiments, we demonstrate the effectiveness of RANKCLIP in various downstream tasks, notably achieving significant gains in zero-shot classifications over state-of-the-art methods, underscoring the importance of this enhanced learning process.

arxiv情報

著者 Yiming Zhang,Zhuokai Zhao,Zhaorun Chen,Zhili Feng,Zenghui Ding,Yining Sun
発行日 2024-06-20 16:20:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク