要約
クリップなどの自己監視対照学習モデルは、多くの下流タスクでビジョン言語モデルの新しいベンチマークを設定しています。
ただし、剛性の1対1マッピングへの依存性は、テキストと画像の間の複雑で多面的な関係を見落としています。
この目的のために、クリップとそのバリアントの剛性の1対1のマッチングフレームワークを超えて拡張する新しいトレーニング前の方法であるRankClipを紹介します。
従来のペアワイズの損失をリストごとに拡張し、モーダルランキングとクロスモーダルの両方のランキングの一貫性を活用することにより、RankClipはアラインメントプロセスを改善し、各モダリティ間およびおよび各モダリティ間の微妙な多くの多くの関係をキャプチャできるようにします。
包括的な実験を通じて、さまざまな下流タスクにおけるRankClipの有効性を実証し、特に最先端の方法でゼロショット分類の大幅な利益を達成し、この強化された学習プロセスの重要性を強調しています。
要約(オリジナル)
Self-supervised contrastive learning models, such as CLIP, have set new benchmarks for vision-language models in many downstream tasks. However, their dependency on rigid one-to-one mappings overlooks the complex and often multifaceted relationships between and within texts and images. To this end, we introduce RankCLIP, a novel pre-training method that extends beyond the rigid one-to-one matching framework of CLIP and its variants. By extending the traditional pair-wise loss to list-wise, and leveraging both in-modal and cross-modal ranking consistency, RankCLIP improves the alignment process, enabling it to capture the nuanced many-to-many relationships between and within each modality. Through comprehensive experiments, we demonstrate the effectiveness of RankCLIP in various downstream tasks, notably achieving significant gains in zero-shot classifications over state-of-the-art methods, underscoring the importance of this enhanced learning process.
arxiv情報
著者 | Yiming Zhang,Zhuokai Zhao,Zhaorun Chen,Zhili Feng,Zenghui Ding,Yining Sun |
発行日 | 2025-03-24 14:48:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google