要約
視覚に大規模モデルを適応させるための視覚的プロンプトの有効性を調査します。
迅速な調整と敵対的な再プログラミングからの最近のアプローチに従って、この摂動で促された凍結モデルが新しいタスクを実行するように、単一の画像摂動を学習します。
包括的な実験を通じて、視覚的プロンプトがCLIPに特に効果的であり、分布シフトに対してロバストであり、標準の線形プローブと競合するパフォーマンスを達成することを示します。
さらに、適応パフォーマンスに関して、ダウンストリームデータセット、プロンプトデザイン、および出力変換のプロパティを分析します。
視覚的プロンプトの驚くべき効果は、事前に訓練されたモデルを視覚に適応させるための新しい視点を提供します。
コードはhttp://hjbahng.github.io/visual_promptingで入手できます。
要約(オリジナル)
We investigate the efficacy of visual prompting to adapt large-scale models in vision. Following the recent approach from prompt tuning and adversarial reprogramming, we learn a single image perturbation such that a frozen model prompted with this perturbation performs a new task. Through comprehensive experiments, we demonstrate that visual prompting is particularly effective for CLIP and robust to distribution shift, achieving performance competitive with standard linear probes. We further analyze properties of the downstream dataset, prompt design, and output transformation in regard to adaptation performance. The surprising effectiveness of visual prompting provides a new perspective on adapting pre-trained models in vision. Code is available at http://hjbahng.github.io/visual_prompting .
arxiv情報
著者 | Hyojin Bahng,Ali Jahanian,Swami Sankaranarayanan,Phillip Isola |
発行日 | 2022-06-03 17:52:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google