Revisiting the Power of Prompt for Visual Tuning

要約

ビジュアル プロンプト チューニング (VPT) は、学習可能なプロンプト トークンを組み込んで、下流タスク用に事前トレーニングされたモデルをカスタマイズする有望なソリューションです。
ただし、VPT とそのバリアントは、自己教師あり事前トレーニングでのプロンプト初期化、プロンプト長、標準以下のパフォーマンスなどの課題に直面することが多く、状況適応の成功を妨げます。
この研究は、熟練したトレーニング中のプロンプトとパッチ トークンの間の相関の進化を調査することから始まります。
プロンプト トークンがパッチ トークンと高い相互情報を共有する傾向があるという観察に触発されて、ダウンストリーム トークン プロトタイプを使用してプロンプトを初期化することを提案します。
以前の初期化の代わりとなる戦略的初期化により、微調整のパフォーマンスが大幅に向上します。
さらに改良するために、VPT と比較して計算コストがほとんど増加せずに優れたパフォーマンスを維持する合理化されたパイプラインを使用してトークン構築を最適化します。
徹底的な実験により、私たちが提案したアプローチが既存の方法よりも大幅に優れていることがわかりました。
たとえば、24 タスク中 19 タスクで完全な微調整を上回り、FGVC および VTAB-1K ベンチマークでは学習可能なパラメーターの 0.4% 未満を使用しています。
特に、私たちの方法は自己教師あり事前トレーニングへの適応を大幅に前進させ、少なくとも10%から30%の印象的なタスクパフォ​​ーマンスの向上を達成します。
さらに、実験結果は、提案された SPT がプロンプトの長さに対して堅牢であり、モデルの容量とトレーニング データのサイズに合わせて適切に拡張できることを示しています。
最後に、ターゲット データの量について洞察に富んだ調査を提供し、事前トレーニングされたモデルを下流タスクに適応することを容易にします。
コードは https://github.com/WangYZ1608/Self-Prompt-Tuning で入手できます。

要約(オリジナル)

Visual prompt tuning (VPT) is a promising solution incorporating learnable prompt tokens to customize pre-trained models for downstream tasks. However, VPT and its variants often encounter challenges like prompt initialization, prompt length, and subpar performance in self-supervised pretraining, hindering successful contextual adaptation. This study commences by exploring the correlation evolvement between prompts and patch tokens during proficient training. Inspired by the observation that the prompt tokens tend to share high mutual information with patch tokens, we propose initializing prompts with downstream token prototypes. The strategic initialization, a stand-in for the previous initialization, substantially improves performance in fine-tuning. To refine further, we optimize token construction with a streamlined pipeline that maintains excellent performance with almost no increase in computational expenses compared to VPT. Exhaustive experiments show our proposed approach outperforms existing methods by a remarkable margin. For instance, it surpasses full fine-tuning in 19 out of 24 tasks, using less than 0.4% of learnable parameters on the FGVC and VTAB-1K benchmarks. Notably, our method significantly advances the adaptation for self-supervised pretraining, achieving impressive task performance gains of at least 10% to 30%. Besides, the experimental results demonstrate the proposed SPT is robust to prompt lengths and scales well with model capacity and training data size. We finally provide an insightful exploration into the amount of target data facilitating the adaptation of pre-trained models to downstream tasks. The code is available at https://github.com/WangYZ1608/Self-Prompt-Tuning.

arxiv情報

著者 Yuzhu Wang,Lechao Cheng,Chaowei Fang,Dingwen Zhang,Manni Duan,Meng Wang
発行日 2024-05-13 13:32:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク