Mixture of Prompt Learning for Vision Language Models

要約

CLIP のような強力な事前トレーニング済みビジョン言語モデル (VLM) が注目を集めるにつれ、多くの研究が下流のタスクに VLM を組み合わせようと試みてきました。
その中でも、即時学習は、少数のパラメータのみを必要とする、新しいタスクに適応するための効果的な方法として検証されています。
しかし、現在のプロンプト学習方法は 2 つの課題に直面しています。1 つは、単一のソフト プロンプトがデータセット内の多様なスタイルとパターンを捕捉するのに苦労していることです。
2 番目に、ソフト プロンプトを微調整すると、過剰適合が発生する傾向があります。
これらの課題に対処するために、ルーティング モジュールを組み込んだソフト プロンプト学習方法の混合を提案します。
このモジュールは、データセットのさまざまなスタイルをキャプチャし、各インスタンスに最適なプロンプトを動的に選択できます。
さらに、ルーターがハード プロンプト テンプレートとの類似性に基づいてプロンプトを選択することを保証する新しいゲート メカニズムを導入します。これにより、ハード プロンプトからの知識が保持され、選択の精度が向上します。
また、意味的にグループ化されたテキストレベルの監視を実装し、そのグループから手動で設計されたテンプレートのトークン埋め込みで各ソフトプロンプトを初期化し、結果のテキスト特徴とハードプロンプトでエンコードされたテキスト特徴の間に対照的な損失を適用しました。
この監視により、ソフト プロンプトから得られるテキストの特徴が、対応するハード プロンプトから得られるテキストの特徴に近い状態を維持し、初期の知識が維持され、過剰適合が軽減されます。
私たちの手法は 11 のデータセットで検証されており、既存のベースラインと比較して、少数ショット学習、ドメイン汎化、およびベースから新しい汎化シナリオにおける明らかな改善が実証されています。
コードは \url{https://anonymous.4open.science/r/mocoop-6387} で入手できます。

要約(オリジナル)

As powerful pre-trained vision-language models (VLMs) like CLIP gain prominence, numerous studies have attempted to combine VLMs for downstream tasks. Among these, prompt learning has been validated as an effective method for adapting to new tasks, which only requiring a small number of parameters. However, current prompt learning methods face two challenges: first, a single soft prompt struggles to capture the diverse styles and patterns within a dataset; second, fine-tuning soft prompts is prone to overfitting. To address these challenges, we propose a mixture of soft prompt learning method incorporating a routing module. This module is able to capture a dataset’s varied styles and dynamically selects the most suitable prompts for each instance. Additionally, we introduce a novel gating mechanism to ensure the router selects prompts based on their similarity to hard prompt templates, which both retaining knowledge from hard prompts and improving selection accuracy. We also implement semantically grouped text-level supervision, initializing each soft prompt with the token embeddings of manually designed templates from its group and applied a contrastive loss between the resulted text feature and hard prompt encoded text feature. This supervision ensures that the text features derived from soft prompts remain close to those from their corresponding hard prompts, preserving initial knowledge and mitigating overfitting. Our method has been validated on 11 datasets, demonstrating evident improvements in few-shot learning, domain generalization, and base-to-new generalization scenarios compared to existing baselines. The code will be available at \url{https://anonymous.4open.science/r/mocoop-6387}

arxiv情報

著者 Yu Du,Tong Niu,Rong Zhao
発行日 2024-09-18 14:25:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク