要約
CLIP などの大規模な事前トレーニング済みビジョン言語モデルは、下流タスクへのゼロショット転送可能性において大きな可能性を実証しています。
ただし、最適なパフォーマンスを達成するには、プロンプトを手動で選択して、ダウンストリームの画像配布とテキストによるクラスの説明の間の整合性を向上させる必要があります。
この手動によるプロンプト エンジニアリングは、その分野の専門知識が必要であり、非常に時間がかかるため、このようなモデルを実際に導入する際の大きな課題となります。
重要なプロンプト エンジニアリングを回避するために、最近の研究である Context Optimization (CoOp) では、学習可能なテキスト トークンを使用してビジョン ドメインにプロンプト学習の概念を導入しました。
CoOp は手動プロンプトに比べて大幅な改善を達成できますが、その学習されたコンテキストは、同じデータセット内のより広範な目に見えないクラスに一般化するのが困難です。
この研究では、再パラメータ化エンコーダ (PRE) を使用したプロンプト学習を紹介します。これは、基本クラスを学習する能力を維持しながら、未確認のクラスに対する学習可能なプロンプトの汎化能力を強化する、シンプルで効率的な方法です。
プロンプトを直接最適化する代わりに、PRE はプロンプト エンコーダーを使用して入力プロンプトの埋め込みを再パラメータ化し、数ショットのサンプルからのタスク固有の知識の探索を強化します。
8 つのベンチマークに関する実験と広範なアブレーション研究により、私たちのアプローチが迅速な学習のための効率的な方法であることが実証されています。
具体的には、PRE は、16 ショット設定の CoOp と比較して、新しいクラスで平均精度が 5.60%、調和平均で 3% という顕著な向上を達成しており、すべて良好なトレーニング時間内で達成されています。
要約(オリジナル)
Large pre-trained vision-language models such as CLIP have demonstrated great potential in zero-shot transferability to downstream tasks. However, to attain optimal performance, the manual selection of prompts is necessary to improve alignment between the downstream image distribution and the textual class descriptions. This manual prompt engineering is the major challenge for deploying such models in practice since it requires domain expertise and is extremely time-consuming. To avoid non-trivial prompt engineering, recent work Context Optimization (CoOp) introduced the concept of prompt learning to the vision domain using learnable textual tokens. While CoOp can achieve substantial improvements over manual prompts, its learned context is worse generalizable to wider unseen classes within the same dataset. In this work, we present Prompt Learning with Reparameterization Encoder (PRE) – a simple and efficient method that enhances the generalization ability of the learnable prompt to unseen classes while maintaining the capacity to learn Base classes. Instead of directly optimizing the prompts, PRE employs a prompt encoder to reparameterize the input prompt embeddings, enhancing the exploration of task-specific knowledge from few-shot samples. Experiments and extensive ablation studies on 8 benchmarks demonstrate that our approach is an efficient method for prompt learning. Specifically, PRE achieves a notable enhancement of 5.60% in average accuracy on New classes and 3% in Harmonic mean compared to CoOp in the 16-shot setting, all achieved within a good training time.
arxiv情報
著者 | Anh Pham Thi Minh,An Duc Nguyen,Georgios Tzimiropoulos |
発行日 | 2023-11-06 12:18:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google