Domain Aligned CLIP for Few-shot Classification

要約

CLIP のような大規模な視覚言語表現学習モデルは、対照的な目標を介したモーダル間 (画像とテキスト) の位置合わせから大きな恩恵を受けながら、下流のタスクへのゼロショット転送で優れたパフォーマンスを実証しました。
このダウンストリームのパフォーマンスは、フルスケールの微調整によってさらに強化できます。これは多くの場合、計算量が多く、大量のラベル付きデータが必要となり、配布外 (OOD) の堅牢性が低下する可能性があります。
さらに、モーダル間の調整だけに依存すると、個々のモダリティに組み込まれた豊富な情報が見落とされる可能性があります。
この研究では、ドメイン アラインド CLIP (DAC) と呼ばれる、CLIP 用のサンプル効率の高いドメイン適応戦略を導入します。これは、メイン モデルを微調整することなく、ターゲット分布のモーダル内 (画像間) およびモーダル間のアラインメントの両方を改善します。

イントラモーダルアライメントについては、イントラモーダル対比目標を使用して特別にトレーニングされた軽量アダプターを導入します。
モーダル間の位置合わせを改善するために、事前計算されたクラス テキストの埋め込みを調整するための単純なフレームワークを導入します。
提案された少数ショット微調整フレームワークは、計算効率が高く、分布の変化に対して堅牢であり、CLIP のパラメーターを変更しません。
私たちは、広く使用されている 11 の画像分類タスクでベンチマークを行うことによって DAC の有効性を研究し、強力なベースラインでの 16 ショット分類で約 2.3% の一貫した改善を実現し、4 つの OOD 堅牢性ベンチマークで競合パフォーマンスを実証しました。

要約(オリジナル)

Large vision-language representation learning models like CLIP have demonstrated impressive performance for zero-shot transfer to downstream tasks while largely benefiting from inter-modal (image-text) alignment via contrastive objectives. This downstream performance can further be enhanced by full-scale fine-tuning which is often compute intensive, requires large labelled data, and can reduce out-of-distribution (OOD) robustness. Furthermore, sole reliance on inter-modal alignment might overlook the rich information embedded within each individual modality. In this work, we introduce a sample-efficient domain adaptation strategy for CLIP, termed Domain Aligned CLIP (DAC), which improves both intra-modal (image-image) and inter-modal alignment on target distributions without fine-tuning the main model. For intra-modal alignment, we introduce a lightweight adapter that is specifically trained with an intra-modal contrastive objective. To improve inter-modal alignment, we introduce a simple framework to modulate the precomputed class text embeddings. The proposed few-shot fine-tuning framework is computationally efficient, robust to distribution shifts, and does not alter CLIP’s parameters. We study the effectiveness of DAC by benchmarking on 11 widely used image classification tasks with consistent improvements in 16-shot classification upon strong baselines by about 2.3% and demonstrate competitive performance on 4 OOD robustness benchmarks.

arxiv情報

著者 Muhammad Waleed Gondal,Jochen Gast,Inigo Alonso Ruiz,Richard Droste,Tommaso Macri,Suren Kumar,Luitpold Staudigl
発行日 2023-11-15 18:34:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク