要約
CLIPのような視覚言語モデル(VLM)は、その性能を最適化するために、下流のタスクに微調整することがしばしば必要です。しかし、大きな障害となっているのは、ラベル付きデータの入手が限られていることである。本研究では、擬似ラベル(ラベルのないデータに対する発見的なラベル)の使用により、CLIPを迅速なチューニングによって強化することを検討する。従来の擬似ラベルは、ラベル付きデータでモデルを学習させ、ラベルなしデータに対するラベルを生成する。VLMのゼロショット機能は、ラベル付きデータに対するタスク固有のトレーニングを必要としない「第二世代」の擬似ラベリングアプローチを可能にします。ゼロショット擬似ラベルをスーパービジョンとして用いることで、半教師付き学習、トランスダクティブゼロショット学習、教師なし学習といった学習パラダイムが、すべて同じ損失関数を最適化するものと見なすことができるようになる。この統一的な見解により、学習パラダイムを越えて適用可能な汎用的な学習戦略を開発することができる。本研究では、CLIPが制限を受ける画像分類タスクにおいて、プロンプトのモダリティ(テキスト、視覚プロンプトなど)や学習パラダイムを変化させながら、これらの学習戦略を検討した。その結果、(1)半教師付き学習では19.5ポイント、トランスダクティブゼロショット学習では28.4ポイント、教師なし学習では15.2ポイントのCLIP精度の向上、(2)より高品質の擬似ラベルを持つクラスへのモデルの偏りを悪化させる従来の半教師付き疑似ラベルと異なり、促成学習によりクラスごとの精度をより均等に分布させる、ことがわかった。実験を再現するコードはgithub.com/BatsResearch/menghini-enhanceCLIPwithCLIP-codeにあります。
要約(オリジナル)
Fine-tuning vision-language models (VLMs) like CLIP to downstream tasks is often necessary to optimize their performance. However, a major obstacle is the limited availability of labeled data. We study the use of pseudolabels, i.e., heuristic labels for unlabeled data, to enhance CLIP via prompt tuning. Conventional pseudolabeling trains a model on labeled data and then generates labels for unlabeled data. VLMs’ zero-shot capabilities enable a “second generation” of pseudolabeling approaches that do not require task-specific training on labeled data. By using zero-shot pseudolabels as a source of supervision, we observe that learning paradigms such as semi-supervised, transductive zero-shot, and unsupervised learning can all be seen as optimizing the same loss function. This unified view enables the development of versatile training strategies that are applicable across learning paradigms. We investigate them on image classification tasks where CLIP exhibits limitations, by varying prompt modalities, e.g., textual or visual prompts, and learning paradigms. We find that (1) unexplored prompt tuning strategies that iteratively refine pseudolabels consistently improve CLIP accuracy, by 19.5 points in semi-supervised learning, by 28.4 points in transductive zero-shot learning, and by 15.2 points in unsupervised learning, and (2) unlike conventional semi-supervised pseudolabeling, which exacerbates model biases toward classes with higher-quality pseudolabels, prompt tuning leads to a more equitable distribution of per-class accuracy. The code to reproduce the experiments is at github.com/BatsResearch/menghini-enhanceCLIPwithCLIP-code.
arxiv情報
著者 | Cristina Menghini,Andrew Delworth,Stephen H. Bach |
発行日 | 2023-06-02 16:43:05+00:00 |
arxivサイト | arxiv_id(pdf) |