要約
大規模な事前トレーニング済みビジョン言語モデル (VLM) は、手動で設計されたプロンプトを使用した下流タスクで優れたゼロショット能力を示しています。
VLM をダウンストリーム タスクにさらに適応させるために、特定のドメイン データに基づいて微調整される手動で設計されたプロンプトをソフト プロンプトに置き換えることが提案されています。
従来のプロンプト学習方法は、主にトレーニング サンプルから固定プロンプトまたは残留プロンプトを学習します。
ただし、学習されたプロンプトには多様性が欠けており、目に見えないドメインに関する情報は無視されます。
この論文では、生成的な観点からプロンプト学習フレームワークを再構成し、ドメイン一般化 (DG) タスクのためのシンプルかつ効率的な方法、つまりソフト プロンプト生成 (SPG) を提案します。
具体的には、SPG は 2 段階のトレーニング フェーズと推論フェーズで構成されます。
トレーニング段階では、生成モデルのドメイン知識を組み込むことを目的として、各ドメインにソフト プロンプト ラベルを導入します。
推論フェーズでは、生成モデルのジェネレーターを使用して、目に見えないターゲット ドメインに対するインスタンス固有のソフト プロンプトを取得します。
3 つの DG タスクの 5 つのドメイン一般化ベンチマークに関する広範な実験により、SPG が最先端のパフォーマンスを達成することが実証されました。
コードは https://github.com/renytek13/Soft-Prompt-Generation-with-CGAN で入手できます。
要約(オリジナル)
Large pre-trained vision language models (VLMs) have shown impressive zero-shot ability on downstream tasks with manually designed prompt. To further adapt VLMs to downstream tasks, soft prompt is proposed to replace manually designed prompt, which undergoes fine-tuning based on specific domain data. Prior prompt learning methods primarily learn a fixed prompt or residuled prompt from training samples. However, the learned prompts lack diversity and ignore information about unseen domains. In this paper, we reframe the prompt learning framework from a generative perspective and propose a simple yet efficient method for the Domain Generalization (DG) task, namely Soft Prompt Generation (SPG). Specifically, SPG consists of a two-stage training phase and an inference phase. During the training phase, we introduce soft prompt label for each domain, aiming to incorporate the generative model domain knowledge. During the inference phase, the generator of the generative model is employed to obtain instance-specific soft prompts for the unseen target domain. Extensive experiments on five domain generalization benchmarks of three DG tasks demonstrate that SPG achieves state-of-the-art performance. The code is available at https://github.com/renytek13/Soft-Prompt-Generation-with-CGAN.
arxiv情報
著者 | Shuanghao Bai,Yuedi Zhang,Wanqi Zhou,Zhirong Luan,Badong Chen |
発行日 | 2024-07-12 14:55:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google