Understanding and Improving Visual Prompting: A Label-Mapping Perspective

要約

我々は、視覚タスクのための入力プロンプト技術であるビジュアルプロンプト(VP)を再検討し、進化させる。VPは、普遍的なプロンプト(入力摂動パターン)を下流のデータポイントに組み込むだけで、事前に訓練された固定的なソースモデルを再プログラムし、ターゲットドメインの下流タスクを達成させることができる。しかし、ソースクラスとターゲットクラスの間にルールレスラベルマッピング(LM)が存在しても、なぜVPが有効であり続けるのかは、依然として不明である。そこで、我々は、LMとVPはどのような関係にあるのか?そして、そのような関係を利用して、ターゲットタスクにおけるVPの精度を向上させるにはどうすればよいのだろうか?我々は、LMがVPに与える影響を調べ、LMの「質」(マッピングの精度と説明度で評価)を向上させることで、VPの有効性を一貫して向上させることができるという肯定的な答えを提供する。これは、LMの要素が欠落していた先行技術とは対照的である。LMを最適化するために、我々はILM-VP(iterative label mapping-based visual prompting)と名付けた新しいVPフレームワークを提案し、ソースラベルをターゲットラベルに自動的に再マッピングし、VPのターゲットタスク精度を徐々に向上させることができる。さらに、CLIP(Contrastive Language-image Pretrained)モデルを使用する場合、CLIPのテキストプロンプト選択を支援するLMプロセスを統合し、ターゲットタスクの精度を向上させることを提案する。広範な実験により、本提案が最先端のVP手法を大幅に上回ることが実証された。例えば、Flowers102とCIFAR100データセットへの転送学習では、7.9%と6.7%の精度向上を達成した。また、CLIPベースのVPの提案では、Flowers102とDTDでそれぞれ13.7%と7.1%の精度向上を実現しています。コードは https://github.com/OPTML-Group/ILM-VP で公開しています。

要約(オリジナル)

We revisit and advance visual prompting (VP), an input prompting technique for vision tasks. VP can reprogram a fixed, pre-trained source model to accomplish downstream tasks in the target domain by simply incorporating universal prompts (in terms of input perturbation patterns) into downstream data points. Yet, it remains elusive why VP stays effective even given a ruleless label mapping (LM) between the source classes and the target classes. Inspired by the above, we ask: How is LM interrelated with VP? And how to exploit such a relationship to improve its accuracy on target tasks? We peer into the influence of LM on VP and provide an affirmative answer that a better ‘quality’ of LM (assessed by mapping precision and explanation) can consistently improve the effectiveness of VP. This is in contrast to the prior art where the factor of LM was missing. To optimize LM, we propose a new VP framework, termed ILM-VP (iterative label mapping-based visual prompting), which automatically re-maps the source labels to the target labels and progressively improves the target task accuracy of VP. Further, when using a contrastive language-image pretrained (CLIP) model, we propose to integrate an LM process to assist the text prompt selection of CLIP and to improve the target task accuracy. Extensive experiments demonstrate that our proposal significantly outperforms state-of-the-art VP methods. As highlighted below, we show that when reprogramming an ImageNet-pretrained ResNet-18 to 13 target tasks, our method outperforms baselines by a substantial margin, e.g., 7.9% and 6.7% accuracy improvements in transfer learning to the target Flowers102 and CIFAR100 datasets. Besides, our proposal on CLIP-based VP provides 13.7% and 7.1% accuracy improvements on Flowers102 and DTD respectively. Our code is available at https://github.com/OPTML-Group/ILM-VP.

arxiv情報

著者 Aochuan Chen,Yuguang Yao,Pin-Yu Chen,Yihua Zhang,Sijia Liu
発行日 2023-03-06 14:34:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク