Rethinking Visual Prompt Learning as Masked Visual Token Modeling

要約

迅速な学習は、自然言語処理 (NLP) における大規模な事前トレーニング済みモデルを効率的に活用する上で大きな成功を収めました。
下流のタスクを生成的な事前トレーニングとして再定式化して一貫性を実現し、安定してパフォーマンスを向上させます。
しかし、それを視覚領域に移す場合、現在の視覚的プロンプト学習手法はほとんどが識別的な事前学習モデルに基づいて設計されており、事前学習と下流のタスクの形式を統一するための慎重な設計も不足しています。
タスクの一貫性を維持するだけでなく、生成的な事前トレーニングされたビジュアル モデルでのプロンプト学習を検討するために、下流のビジュアル分類を事前トレーニングされたマスクされたビジュアル トークン予測に変換する、マスクされたビジュアル トークン モデリング (VPTM) としてのビジュアル プロンプト学習を提案します。
さらに、暗黙的なセマンティクスを使用して予測されたビジュアル トークンを明示的な下流ラベルにマッピングするためのプロトタイプの言語化ツールを開発します。
私たちの知る限り、VPTM は、事前トレーニングされた生成視覚モデル上の最初の視覚プロンプト手法であり、タスクの再定式化によって事前トレーニングと下流の視覚分類の間の一貫性を実現します。
実験によれば、VPTM は他の視覚的プロンプト方法よりも優れたパフォーマンスを示し、優れた効率を達成します。
さらに、VPTM のタスクの一貫性は、プロンプトの位置、プロンプトの長さ、プロトタイプの寸法に対する堅牢性に貢献し、均一に展開できます。

要約(オリジナル)

Prompt learning has achieved great success in efficiently exploiting large-scale pre-trained models in natural language processing (NLP). It reformulates the downstream tasks as the generative pre-training ones to achieve consistency, thus improving the performance stably. However, when transferring it to the vision area, current visual prompt learning methods are almost designed on discriminative pre-trained models, and there is also a lack of careful design to unify the forms of pre-training and downstream tasks. To explore prompt learning on the generative pre-trained visual model, as well as keeping the task consistency, we propose Visual Prompt learning as masked visual Token Modeling (VPTM) to transform the downstream visual classification into the pre-trained masked visual token prediction. In addition, we develop the prototypical verbalizer for mapping the predicted visual token with implicit semantics to explicit downstream labels. To our best knowledge, VPTM is the first visual prompt method on the generative pre-trained visual model, which achieves consistency between pre-training and downstream visual classification by task reformulation. Experiments show that VPTM outperforms other visual prompt methods and achieves excellent efficiency. Moreover, the task consistency of VPTM contributes to the robustness against prompt location, prompt length and prototype dimension, and could be deployed uniformly.

arxiv情報

著者 Ning Liao,Bowen Shi,Xiaopeng Zhang,Min Cao,Junchi Yan,Qi Tian
発行日 2023-12-15 15:44:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク