SoftCLIP: Softer Cross-modal Alignment Makes CLIP Stronger

要約

前の 2 年間、ビジョン言語の事前トレーニングは、いくつかのダウンストリーム タスクで注目に値する成功を収めました。
それにもかかわらず、ペアが互いに完全に排他的である高品質の画像とテキストのペアを取得することは依然として困難な作業であり、一般的に使用されるデータセットにはノイズが存在します。
この問題に対処するために、厳密な1対1の制約を緩和し、ソフト化されたターゲットを導入することでソフトなクロスモーダルアライメントを実現する新しいアプローチであるSoftCLIPを提案します。これは、きめの細かいイントラモーダル自己相似性から生成されます
.
イントラモーダル ガイダンスは、2 つのペアがいくつかの局所的な類似性を持ち、2 つのモダリティ間の多対多の関係をモデル化できるようにすることを示しています。
さらに、ソフト化されたターゲット分布ではポジティブがまだ優勢であるため、分布内のネガティブを解きほぐして、クロスモーダル学習におけるネガティブとの関係の整合性をさらに高めます。
広範な実験により、SoftCLIP の有効性が実証されています。
特に、CC3M/CC12M を事前トレーニング データセットとして使用する ImageNet ゼロ ショット分類タスクでは、SoftCLIP は、CLIP ベースラインよりも 6.8%/7.2% のトップ 1 精度の向上をもたらします。

要約(オリジナル)

During the preceding biennium, vision-language pre-training has achieved noteworthy success on several downstream tasks. Nevertheless, acquiring high-quality image-text pairs, where the pairs are entirely exclusive of each other, remains a challenging task, and noise exists in the commonly used datasets. To address this issue, we propose SoftCLIP, a novel approach that relaxes the strict one-to-one constraint and achieves a soft cross-modal alignment by introducing a softened target, which is generated from the fine-grained intra-modal self-similarity. The intra-modal guidance is indicative to enable two pairs have some local similarities and model many-to-many relationships between the two modalities. Besides, since the positive still dominates in the softened target distribution, we disentangle the negatives in the distribution to further boost the relation alignment with the negatives in the cross-modal learning. Extensive experiments demonstrate the effectiveness of SoftCLIP. In particular, on ImageNet zero-shot classification task, using CC3M/CC12M as pre-training dataset, SoftCLIP brings a top-1 accuracy improvement of 6.8%/7.2% over the CLIP baseline.

arxiv情報

著者 Yuting Gao,Jinfeng Liu,Zihan Xu,Tong Wu,Wei Liu,Jie Yang,Ke Li,Xing Sun
発行日 2023-03-30 17:27:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク