Consistency-guided Prompt Learning for Vision-Language Models

要約

私たちは、視覚言語モデルの新しい微調整方法である一貫性ガイド付きプロンプト学習 (CoPrompt) を提案します。
私たちのアプローチは、数回のショット設定で下流のタスクを微調整する際に、大規模な基礎モデルの一般化を向上させます。
CoPrompt の基本的な考え方は、下流タスクでの過剰適合を防ぐために、トレーニング可能なモデルと事前トレーニングされたモデルの予測に一貫性制約を適用することです。
さらに、パフォーマンスをさらに向上させるために、次の 2 つのコンポーネントを一貫性制約に導入します。それは、2 つの摂動入力に対する一貫性の強制と、チューニング、プロンプト、アダプターの 2 つの主要なパラダイムの組み合わせです。
摂動された入力に対して一貫性を強制すると、一貫性制約がさらに規則化され、それによって一般化が向上します。
さらに、アダプターとプロンプトの統合により、下流タスクのパフォーマンスが向上するだけでなく、入力スペースと出力スペースの両方でのチューニングの柔軟性も向上します。
これにより、数ショット学習設定における下流タスクへのより効果的な適応が容易になります。
実験によると、CoPrompt は、ベースから新規への一般化、ドメインの一般化、データセット間の評価など、さまざまな評価スイートで既存の方法よりも優れたパフォーマンスを示します。
一般化すると、CoPrompt はゼロショット タスクと 11 データセットにわたる全体の調和平均に関する最先端の機能を向上させます。
詳細なアブレーション研究により、CoPrompt の各コンポーネントの有効性が示されています。
コードは https://github.com/ShuvenduRoy/CoPrompt で公開しています。

要約(オリジナル)

We propose Consistency-guided Prompt learning (CoPrompt), a new fine-tuning method for vision-language models. Our approach improves the generalization of large foundation models when fine-tuned on downstream tasks in a few-shot setting. The basic idea of CoPrompt is to enforce a consistency constraint in the prediction of the trainable and pre-trained models to prevent overfitting on the downstream task. Additionally, we introduce the following two components into our consistency constraint to further boost the performance: enforcing consistency on two perturbed inputs and combining two dominant paradigms of tuning, prompting and adapter. Enforcing consistency on perturbed input serves to further regularize the consistency constraint, thereby improving generalization. Moreover, the integration of adapters and prompts not only enhances performance on downstream tasks but also offers increased tuning flexibility in both input and output spaces. This facilitates more effective adaptation to downstream tasks in a few-shot learning setting. Experiments show that CoPrompt outperforms existing methods on a range of evaluation suites, including base-to-novel generalization, domain generalization, and cross-dataset evaluation. On generalization, CoPrompt improves the state-of-the-art on zero-shot tasks and the overall harmonic mean over 11 datasets. Detailed ablation studies show the effectiveness of each of the components in CoPrompt. We make our code available at https://github.com/ShuvenduRoy/CoPrompt.

arxiv情報

著者 Shuvendu Roy,Ali Etemad
発行日 2024-02-27 16:40:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク