Finetune like you pretrain: Improved finetuning of zero-shot vision models

要約

CLIP などの画像テキスト モデルの微調整により、さまざまなベンチマークで最先端の精度が達成されます。
ただし、WiseFT (Wortsman et al., 2021) や LP-FT (Kumar et al., 2022) などの最近の研究では、微調整プロセスの微妙な違いでさえ、最終的なパフォーマンスに驚くほど大きな違いが生じる可能性があることが示されています。
-配布 (ID) および配布外 (OOD) データ。
この作業では、対照的な事前トレーニングを模倣する自然でシンプルなアプローチが、代替の微調整アプローチよりも一貫して優れていることを示しています。
具体的には、下流のクラス ラベルをテキスト プロンプトとしてキャストし、画像埋め込みとクラス記述プロンプト埋め込みの間のコントラスト損失の最適化を続けます (対照的な微調整)。
私たちの方法は、7 回の分布シフト、6 回の転移学習、および 3 回の少数ショット学習ベンチマークで、一貫してベースラインを上回っています。
WILDS-iWILDCam では、提案されたアプローチ FLYP がリーダーボードのトップを $2.3\%$ ID および $2.7\%$ OOD 上回っており、報告されている最高の精度を示しています。
7 つの OOD データセット (2 つの WILDS および 5 つの ImageNet 関連シフト) で平均すると、FLYP は標準の微調整よりも $4.2\%$ OOD の利益をもたらし、現在の最先端技術 (LP-FT) よりも ID と ID および
OOD。
同様に、3 つの少数ショット学習ベンチマークでは、私たちのアプローチは、標準的な微調整よりも最大 $4.6\%$、最新技術よりも $4.4\%$ の利益をもたらします。
全体として、これらのベンチマークは、対照的な微調整を、CLIP のような画像テキスト モデルの教師あり微調整のためのシンプルで直感的な最先端のアプローチとして確立します。
コードは https://github.com/locuslab/FLYP で入手できます。

要約(オリジナル)

Finetuning image-text models such as CLIP achieves state-of-the-art accuracies on a variety of benchmarks. However, recent works like WiseFT (Wortsman et al., 2021) and LP-FT (Kumar et al., 2022) have shown that even subtle differences in the finetuning process can lead to surprisingly large differences in the final performance, both for in-distribution (ID) and out-of-distribution (OOD) data. In this work, we show that a natural and simple approach of mimicking contrastive pretraining consistently outperforms alternative finetuning approaches. Specifically, we cast downstream class labels as text prompts and continue optimizing the contrastive loss between image embeddings and class-descriptive prompt embeddings (contrastive finetuning). Our method consistently outperforms baselines across 7 distribution shifts, 6 transfer learning, and 3 few-shot learning benchmarks. On WILDS-iWILDCam, our proposed approach FLYP outperforms the top of the leaderboard by $2.3\%$ ID and $2.7\%$ OOD, giving the highest reported accuracy. Averaged across 7 OOD datasets (2 WILDS and 5 ImageNet associated shifts), FLYP gives gains of $4.2\%$ OOD over standard finetuning and outperforms the current state of the art (LP-FT) by more than $1\%$ both ID and OOD. Similarly, on 3 few-shot learning benchmarks, our approach gives gains up to $4.6\%$ over standard finetuning and $4.4\%$ over the state of the art. In total, these benchmarks establish contrastive finetuning as a simple, intuitive, and state-of-the-art approach for supervised finetuning of image-text models like CLIP. Code is available at https://github.com/locuslab/FLYP.

arxiv情報

著者 Sachin Goyal,Ananya Kumar,Sankalp Garg,Zico Kolter,Aditi Raghunathan
発行日 2022-12-01 16:37:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク