Facing the Elephant in the Room: Visual Prompt Tuning or Full Finetuning?


ビジョン モデルの規模が拡大し続けるにつれて、パラメーター効率の高い転移学習手法としてのビジュアル プロンプト チューニング (VPT) の出現が、従来のフルファインチューニングと比較して優れたパフォーマンスにより注目を集めています。
しかし、VPT に有利な条件 (「いつ」) とその根底にある理論的根拠 (「なぜ」) は依然として不明瞭です。
このペーパーでは、19 の異なるデータセットとタスクにわたって包括的な分析を実施します。
「いつ」の側面を理解するために、タスクの目的とデータの分布という 2 つの側面によって VPT が有利であることが判明するシナリオを特定します。
1) 元のタスク目標と下流のタスク目標の間に大きな差異がある場合 (例: 分類から計数への移行)、または 2) 2 つのタスク間のデータ分布に類似性がある場合 (例: 両方に自然なデータが含まれる場合)、VPT が好ましいことがわかりました。
「なぜ」の側面を探求する際に、私たちの結果は、VPT の成功が過剰適合と最適化の考慮のみに起因するものではないことを示しています。
VPT が元の機能を保持し、パラメーターを追加する独自の方法が極めて重要な要素であるようです。
私たちの研究は、VPT のメカニズムについての洞察を提供し、その最適な利用のためのガイダンスを提供します。


As the scale of vision models continues to grow, the emergence of Visual Prompt Tuning (VPT) as a parameter-efficient transfer learning technique has gained attention due to its superior performance compared to traditional full-finetuning. However, the conditions favoring VPT (the “when’) and the underlying rationale (the “why’) remain unclear. In this paper, we conduct a comprehensive analysis across 19 distinct datasets and tasks. To understand the “when’ aspect, we identify the scenarios where VPT proves favorable by two dimensions: task objectives and data distributions. We find that VPT is preferrable when there is 1) a substantial disparity between the original and the downstream task objectives (e.g., transitioning from classification to counting), or 2) a similarity in data distributions between the two tasks (e.g., both involve natural images). In exploring the “why’ dimension, our results indicate VPT’s success cannot be attributed solely to overfitting and optimization considerations. The unique way VPT preserves original features and adds parameters appears to be a pivotal factor. Our study provides insights into VPT’s mechanisms, and offers guidance for its optimal utilization.


著者 Cheng Han,Qifan Wang,Yiming Cui,Wenguan Wang,Lifu Huang,Siyuan Qi,Dongfang Liu
発行日 2024-01-23 16:48:18+00:00
arxivサイト arxiv_id(pdf)

