要約
視覚的なプロンプトチューニング(VPT)は最近、事前に訓練されたビジョンモデルをダウンストリームタスクに適応させるための強力な方法として浮上しました。
学習可能なプロンプトトークンをタスク固有の命令として導入することにより、VPTは事前に訓練されたトランスモデルを最小限のオーバーヘッドで効果的にガイドします。
その経験的な成功にもかかわらず、VPTの包括的な理論的理解は、積極的な研究分野のままです。
専門家の混合と迅速なアプローチとの関係に関する最近の洞察に基づいて、VPTの重要な制限を特定します。
この制限に対処するために、視覚的な適応プロンプトチューニング(VAPT)を提案します。これは、入力の適応関数としてプロンプトを再定義する新しい世代のプロンプトです。
私たちの理論分析は、このシンプルでありながら直感的なアプローチが最適なサンプル効率を達成することを示しています。
VTAB-1KとFGVCの経験的結果は、それぞれ完全に微調整されたベースラインよりもパフォーマンスの向上を伴うVAPTの有効性をさらに示しています。
特に、VAPTはまた、より少ないパラメーターを使用しながら、VPTをかなりのマージンで上回ります。
これらの結果は、私たちの方法の有効性と効率性の両方を強調し、将来の研究への道を開き、適応プロンプトの可能性を探求します。
私たちのコードは、https://github.com/minhchuyentoancbn/vaptで公開されています
要約(オリジナル)
Visual Prompt Tuning (VPT) has recently emerged as a powerful method for adapting pre-trained vision models to downstream tasks. By introducing learnable prompt tokens as task-specific instructions, VPT effectively guides pre-trained transformer models with minimal overhead. Despite its empirical success, a comprehensive theoretical understanding of VPT remains an active area of research. Building on recent insights into the connection between mixture of experts and prompt-based approaches, we identify a key limitation in VPT: the restricted functional expressiveness in prompt formulation. To address this limitation, we propose Visual Adaptive Prompt Tuning (VAPT), a new generation of prompts that redefines prompts as adaptive functions of the input. Our theoretical analysis shows that this simple yet intuitive approach achieves optimal sample efficiency. Empirical results on VTAB-1K and FGVC further demonstrate VAPT’s effectiveness, with performance gains of 7.34% and 1.04% over fully fine-tuning baselines, respectively. Notably, VAPT also surpasses VPT by a substantial margin while using fewer parameters. These results highlight both the effectiveness and efficiency of our method and pave the way for future research to explore the potential of adaptive prompts. Our code is publicly available at https://github.com/Minhchuyentoancbn/VAPT
arxiv情報
著者 | Minh Le,Anh Nguyen,Huy Nguyen,Chau Nguyen,Nhat Ho |
発行日 | 2025-02-21 10:05:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google