Retrieval-Enhanced Visual Prompt Learning for Few-shot Classification

要約

迅速な学習は、CLIP などの大規模なビジョン言語モデルを下流のタスクに適応させるための一般的なアプローチになっています。
通常、プロンプト学習は、完全な監視の下で少量のデータを適合させるために、固定プロンプト トークンまたは入力条件付きトークンに依存します。
このパラダイムは、特定の範囲の目に見えないクラスに一般化できますが、きめの細かい分類や衛星画像のセグメンテーションなど、ドメイン ギャップが増加すると困難になる可能性があります。
この制限に対処するために、下流のタスクからの知識表現をキャッシュするための検索メカニズムを導入する、検索強化プロンプト学習 (RePrompt) を提案します。
まず、トレーニング例、または利用可能な場合は外部例から検索データベースを構築します。
次に、この検索強化メカニズムを、単純なプロンプト学習ベースラインのさまざまな段階に統合します。
トレーニング セット内の同様のサンプルを参照することにより、強化されたモデルはサンプルが少ない新しいタスクに適応できるようになります。
少数ショット設定の 11 の下流タスクと 4 つのドメイン汎化ベンチマークを含む、15 のビジョン データセットにわたる広範な実験により、RePrompt が大幅に向上したパフォーマンスを達成できることが実証されました。
私たちが提案するアプローチは、ドメインギャップが増大した場合に迅速な学習が直面する課題に対する有望な解決策を提供します。
コードとモデルが利用可能になります。

要約(オリジナル)

Prompt learning has become a popular approach for adapting large vision-language models, such as CLIP, to downstream tasks. Typically, prompt learning relies on a fixed prompt token or an input-conditional token to fit a small amount of data under full supervision. While this paradigm can generalize to a certain range of unseen classes, it may struggle when domain gap increases, such as in fine-grained classification and satellite image segmentation. To address this limitation, we propose Retrieval-enhanced Prompt learning (RePrompt), which introduces retrieval mechanisms to cache the knowledge representations from downstream tasks. we first construct a retrieval database from training examples, or from external examples when available. We then integrate this retrieval-enhanced mechanism into various stages of a simple prompt learning baseline. By referencing similar samples in the training set, the enhanced model is better able to adapt to new tasks with few samples. Our extensive experiments over 15 vision datasets, including 11 downstream tasks with few-shot setting and 4 domain generalization benchmarks, demonstrate that RePrompt achieves considerably improved performance. Our proposed approach provides a promising solution to the challenges faced by prompt learning when domain gap increases. The code and models will be available.

arxiv情報

著者 Jintao Rong,Hao Chen,Tianxiao Chen,Linlin Ou,Xinyi Yu,Yifan Liu
発行日 2024-06-18 13:16:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク