Diversity-Aware Meta Visual Prompting

要約

Diversity-Aware Meta Visual Prompting~(DAM-VP) を提示します。これは、事前にトレーニングされたモデルを、凍結されたバックボーンを持つダウンストリーム タスクに転送するための効率的で効果的なプロンプト方法です。
ビジュアル プロンプトの難しい問題は、画像データセットのデータの多様性が大きい場合があるのに対し、データセットごとの一般的なプロンプトでは、元の事前トレーニング データ分布への複雑な分布シフトを適切に処理できないことです。
この問題に対処するために、初期化がメタプロンプトによって実現されるデータセットの多様性を意識したプロンプト戦略を提案します。
具体的には、下流のデータセットを多様性に適応する方法で小さな同質性サブセットにクラスター化し、各サブセットは個別に最適化された独自のプロンプトを持ちます。
このような分割統治設計により、最適化の難易度が大幅に低下し、プロンプトのパフォーマンスが大幅に向上します。
さらに、すべてのプロンプトは、複数のデータセットで学習されるメタ プロンプトで初期化されます。
これはブートストラップ パラダイムであり、以前のデータセットから学んだプロンプトの知識がプロンプトをより迅速に収束させ、新しいデータセットでのパフォーマンスを向上させるのに役立つという重要な観察があります。
推論中、入力と各サブセット間の特徴距離に基づいて、入力ごとに適切なプロンプトを動的に選択します。
広範な実験を通じて、当社の DAM-VP は優れた効率と有効性を実証し、さまざまな事前トレーニング モデルの一連のダウンストリーム データセットで以前のプロンプト方法を明らかに上回っています。
私たちのコードは、\url{https://github.com/shikiw/DAM-VP} で入手できます。

要約(オリジナル)

We present Diversity-Aware Meta Visual Prompting~(DAM-VP), an efficient and effective prompting method for transferring pre-trained models to downstream tasks with frozen backbone. A challenging issue in visual prompting is that image datasets sometimes have a large data diversity whereas a per-dataset generic prompt can hardly handle the complex distribution shift toward the original pretraining data distribution properly. To address this issue, we propose a dataset Diversity-Aware prompting strategy whose initialization is realized by a Meta-prompt. Specifically, we cluster the downstream dataset into small homogeneity subsets in a diversity-adaptive way, with each subset has its own prompt optimized separately. Such a divide-and-conquer design reduces the optimization difficulty greatly and significantly boosts the prompting performance. Furthermore, all the prompts are initialized with a meta-prompt, which is learned across several datasets. It is a bootstrapped paradigm, with the key observation that the prompting knowledge learned from previous datasets could help the prompt to converge faster and perform better on a new dataset. During inference, we dynamically select a proper prompt for each input, based on the feature distance between the input and each subset. Through extensive experiments, our DAM-VP demonstrates superior efficiency and effectiveness, clearly surpassing previous prompting methods in a series of downstream datasets for different pretraining models. Our code is available at: \url{https://github.com/shikiw/DAM-VP}.

arxiv情報

著者 Qidong Huang,Xiaoyi Dong,Dongdong Chen,Weiming Zhang,Feifei Wang,Gang Hua,Nenghai Yu
発行日 2023-03-14 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク