Improving Visual Prompt Tuning for Self-supervised Vision Transformers

要約

ビジュアル プロンプト チューニング (VPT) は、事前トレーニングされたビジョン トランスフォーマー (ViT) をダウンストリーム タスクに適応させるための効果的なチューニング方法です。
プロンプトと呼ばれる追加の学習可能なトークンを活用し、凍結された事前トレーニング済み ViT を制御します。
VPT は教師ありビジョン トランスフォーマーでの適用性を実証していますが、自己教師ありビジョン トランスフォーマーではパフォーマンスが劣ることがよくあります。
経験的な観察を通じて、VPT の有効性はプロンプト トークンが相互作用する ViT ブロックに大きく依存していると推測します。
具体的には、プロンプト トークンが最初のブロックではなく後のブロックに挿入された場合、VPT は MAE および MoCo v3 の画像分類タスクのパフォーマンスの向上を示します。
これらの観察は、プロンプト トークンの挿入に最適なブロックの場所が存在することを示唆しています。
残念ながら、将来の多様なシナリオに対して各自己監視型 ViT 内のプロンプトに最適なブロックを特定することは、コストのかかるプロセスです。
この問題を軽減するために、各 ViT ブロックのゲートを学習してプロンプト トークンへの介入を調整する、シンプルかつ効果的な方法を提案します。
私たちの方法では、プロンプトトークンは、タスク適応のためのステアリングを必要とするブロックによって選択的に影響を受けます。
私たちの方法は、FGVC および VTAB 画像分類と ADE20K セマンティック セグメンテーションにおいて VPT バリアントよりも優れています。
コードは https://github.com/ryongithub/GatedPromptTuning で入手できます。

要約(オリジナル)

Visual Prompt Tuning (VPT) is an effective tuning method for adapting pretrained Vision Transformers (ViTs) to downstream tasks. It leverages extra learnable tokens, known as prompts, which steer the frozen pretrained ViTs. Although VPT has demonstrated its applicability with supervised vision transformers, it often underperforms with self-supervised ones. Through empirical observations, we deduce that the effectiveness of VPT hinges largely on the ViT blocks with which the prompt tokens interact. Specifically, VPT shows improved performance on image classification tasks for MAE and MoCo v3 when the prompt tokens are inserted into later blocks rather than the first block. These observations suggest that there exists an optimal location of blocks for the insertion of prompt tokens. Unfortunately, identifying the optimal blocks for prompts within each self-supervised ViT for diverse future scenarios is a costly process. To mitigate this problem, we propose a simple yet effective method that learns a gate for each ViT block to adjust its intervention into the prompt tokens. With our method, prompt tokens are selectively influenced by blocks that require steering for task adaptation. Our method outperforms VPT variants in FGVC and VTAB image classification and ADE20K semantic segmentation. The code is available at https://github.com/ryongithub/GatedPromptTuning.

arxiv情報

著者 Seungryong Yoo,Eunji Kim,Dahuin Jung,Jungbeom Lee,Sungroh Yoon
発行日 2023-06-08 09:31:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク