Adaptive Prompt: Unlocking the Power of Visual Prompt Tuning

要約

ビジュアル・プロンプト・チューニング(VPT)は、訓練済みの視覚モデルを下流のタスクに適応させるための強力な手法として最近登場した。学習可能なプロンプトトークンをタスク固有の指示として導入することで、VPTは最小限のオーバーヘッドで効果的に事前学習された変換モデルを導く。その経験的な成功にもかかわらず、VPTの包括的な理論的理解は依然として活発な研究分野である。エキスパートの混合とプロンプトに基づくアプローチとの関連性に関する最近の知見に基づき、我々はVPTにおける重要な限界、すなわちプロンプトの定式化における機能的表現力の制限を明らかにする。この限界に対処するため、我々はプロンプトを入力の適応関数として再定義する新世代のプロンプトであるVisual Adaptive Prompt Tuning (VAPT)を提案する。我々の理論解析により、このシンプルかつ直感的なアプローチが最適なサンプル効率を達成することが示された。VTAB-1KとFGVCにおける実証結果は、VAPTの有効性をさらに実証しており、完全なファインチューニングベースラインと比較して、それぞれ7.34%と1.04%の性能向上を示している。また、VAPTは、より少ないパラメータでVPTを大幅に上回っています。これらの結果は、我々の手法の有効性と効率性の両方を浮き彫りにし、適応的プロンプトの可能性を探る今後の研究に道を開くものである。

要約(オリジナル)

Visual Prompt Tuning (VPT) has recently emerged as a powerful method for adapting pre-trained vision models to downstream tasks. By introducing learnable prompt tokens as task-specific instructions, VPT effectively guides pre-trained transformer models with minimal overhead. Despite its empirical success, a comprehensive theoretical understanding of VPT remains an active area of research. Building on recent insights into the connection between mixture of experts and prompt-based approaches, we identify a key limitation in VPT: the restricted functional expressiveness in prompt formulation. To address this limitation, we propose Visual Adaptive Prompt Tuning (VAPT), a new generation of prompts that redefines prompts as adaptive functions of the input. Our theoretical analysis shows that this simple yet intuitive approach achieves optimal sample efficiency. Empirical results on VTAB-1K and FGVC further demonstrate VAPT’s effectiveness, with performance gains of 7.34% and 1.04% over fully fine-tuning baselines, respectively. Notably, VAPT also surpasses VPT by a substantial margin while using fewer parameters. These results highlight both the effectiveness and efficiency of our method and pave the way for future research to explore the potential of adaptive prompts.

arxiv情報

著者 Minh Le,Anh Nguyen,Huy Nguyen,Chau Nguyen,Nhat Ho
発行日 2025-03-03 11:00:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク