AutoVP: An Automated Visual Prompting Framework and Benchmark


ビジュアル プロンプト (VP) は、事前トレーニングされた視覚モデルを適応させてさまざまな下流の画像分類タスクを解決する、パラメーター効率の高い新しい微調整アプローチです。
しかし、これまで VP の設計空間に関する体系的な研究はほとんどなく、そのパフォーマンスを評価するための明確なベンチマークはありませんでした。
このギャップを埋めるために、VP 設計の選択を自動化するためのエンドツーエンドの拡張可能なフレームワークである AutoVP と、総合的な VP パフォーマンス ベンチマークとして機能する 12 の下流画像分類タスクを提案します。
私たちの設計空間は、1) プロンプトの共同最適化をカバーします。
2) 画像分類器やテキスト画像エンコーダを含む事前トレーニング済みモデルの選択。
3) ノンパラメトリックでトレーニング可能なラベル マッピングを含むモデル出力マッピング戦略。
私たちの広範な実験結果は、AutoVP が現在最もよく知られている VP 手法を大幅に上回っており、精度が最大 6.7% 向上していることを示しています。
リニアプロービング (LP) ベースラインと比較して、最大 27.5% のパフォーマンス向上を達成します。
したがって、AutoVP は 2 つの貢献をします。1 つは、VP 設計の選択に基づいてハイパーパラメータを調整するための効率的なツールとしての機能と、VP の開発を加速することが合理的に期待できる包括的なベンチマークとしての機能の両方です。
ソース コードは で入手できます。


Visual prompting (VP) is an emerging parameter-efficient fine-tuning approach to adapting pre-trained vision models to solve various downstream image-classification tasks. However, there has hitherto been little systematic study of the design space of VP and no clear benchmark for evaluating its performance. To bridge this gap, we propose AutoVP, an end-to-end expandable framework for automating VP design choices, along with 12 downstream image-classification tasks that can serve as a holistic VP-performance benchmark. Our design space covers 1) the joint optimization of the prompts; 2) the selection of pre-trained models, including image classifiers and text-image encoders; and 3) model output mapping strategies, including nonparametric and trainable label mapping. Our extensive experimental results show that AutoVP outperforms the best-known current VP methods by a substantial margin, having up to 6.7% improvement in accuracy; and attains a maximum performance increase of 27.5% compared to linear-probing (LP) baseline. AutoVP thus makes a two-fold contribution: serving both as an efficient tool for hyperparameter tuning on VP design choices, and as a comprehensive benchmark that can reasonably be expected to accelerate VP’s development. The source code is available at


著者 Hsi-Ai Tsao,Lei Hsiung,Pin-Yu Chen,Sijia Liu,Tsung-Yi Ho
発行日 2023-10-12 14:55:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, cs.LG パーマリンク