GOPro: Generate and Optimize Prompts in CLIP using Self-Supervised Learning

要約

CLIP などの大規模基盤モデルは、意味論的に豊富な空間に画像を埋め込むことにより、視覚認識タスクで目覚ましい成功を収めています。
自己教師あり学習 (SSL) も、不変特徴を学習することで視覚認識を向上させることが期待されています。
ただし、CLIP と SSL の組み合わせは、CLIP のコントラスト損失と SSL の損失を混合するマルチタスク フレームワークに起因する課題に直面していることがわかっています。これには、損失の重み付けの問題や、CLIP の出力空間内の画像のさまざまなビュー間の不一致などが含まれます。
これらの課題を克服するために、私たちは GOPro と呼ばれる即時学習ベースのモデルを提案します。これは、学習可能な画像とテキストのプロジェクターのペアを上部に使用して、共有画像テキスト埋め込み空間内の入力画像のさまざまな拡張ビュー間の類似性を保証する統合フレームワークです。
CLIP、不変性と一般化性を促進します。
このようなプロンプトを自動的に学習するために、事前トレーニングされた CLIP から抽出されたビジュアル コンテンツとスタイル プリミティブを活用し、それらをターゲット タスクに適応させます。
CLIP のクロスドメインコントラスト損失に加えて、画像のさまざまなビューを考慮して、視覚的コントラスト損失と新しいプロンプト一貫性損失を導入します。
GOPro は、原則に基づいた方法で CLIP と SSL の長所を組み合わせて、3 つの損失目標すべてに関してエンドツーエンドでトレーニングされています。
経験的評価により、GOPro は、複数のベンチマークにわたる 3 つの困難なドメイン汎化タスクにおいて、最先端のプロンプト手法よりも大幅に優れていることが実証されています。
私たちのコードは https://github.com/mainaksingha01/GOPro で入手できます。

要約(オリジナル)

Large-scale foundation models, such as CLIP, have demonstrated remarkable success in visual recognition tasks by embedding images in a semantically rich space. Self-supervised learning (SSL) has also shown promise in improving visual recognition by learning invariant features. However, the combination of CLIP with SSL is found to face challenges due to the multi-task framework that blends CLIP’s contrastive loss and SSL’s loss, including difficulties with loss weighting and inconsistency among different views of images in CLIP’s output space. To overcome these challenges, we propose a prompt learning-based model called GOPro, which is a unified framework that ensures similarity between various augmented views of input images in a shared image-text embedding space, using a pair of learnable image and text projectors atop CLIP, to promote invariance and generalizability. To automatically learn such prompts, we leverage the visual content and style primitives extracted from pre-trained CLIP and adapt them to the target task. In addition to CLIP’s cross-domain contrastive loss, we introduce a visual contrastive loss and a novel prompt consistency loss, considering the different views of the images. GOPro is trained end-to-end on all three loss objectives, combining the strengths of CLIP and SSL in a principled manner. Empirical evaluations demonstrate that GOPro outperforms the state-of-the-art prompting techniques on three challenging domain generalization tasks across multiple benchmarks by a significant margin. Our code is available at https://github.com/mainaksingha01/GOPro.

arxiv情報

著者 Mainak Singha,Ankit Jha,Biplab Banerjee
発行日 2023-08-22 17:53:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク