要約
プロンプト チューニングは、タスク関連のテキスト トークンを使用して、事前トレーニング済みの視覚言語モデル (VLM) をダウンストリーム タスクに適応させる効果的な方法です。
代表的な CoOp ベースの作業では、学習可能なテキスト トークンをクラス トークンと組み合わせて、特定のテキスト知識を取得します。
しかし、特定のテキスト知識は、強い一般化能力を持つ本質的な一般的なテキスト知識を忘れているため、目に見えないクラスへのより悪い一般化です。
この問題に取り組むために、目に見えないクラスの学習可能なプロンプトの一般化機能を強化するために、新しい知識ガイド付きコンテキスト最適化 (KgCoOp) を導入します。
KgCoOp の重要な洞察は、学習可能なプロンプトと手作りのプロンプトとの間の不一致を減らすことで、重要な知識を忘れるのを軽減できるということです。
特に、KgCoOp は、学習したプロンプトと手作りのプロンプトによって生成されたテキスト埋め込みの間の不一致を最小限に抑えます。
最後に、対照的な損失に KgCoOp を追加すると、表示されているタスクと表示されていないタスクの両方に対して識別的なプロンプトを作成できます。
いくつかのベンチマークの広範な評価は、提案された知識に基づくコンテキスト最適化が迅速なチューニングのための効率的な方法であることを示しています。\emph{i.e.,} は、より少ないトレーニング時間でより良いパフォーマンスを達成します。
要約(オリジナル)
Prompt tuning is an effective way to adapt the pre-trained visual-language model (VLM) to the downstream task using task-related textual tokens. Representative CoOp-based work combines the learnable textual tokens with the class tokens to obtain specific textual knowledge. However, the specific textual knowledge is the worse generalization to the unseen classes because it forgets the essential general textual knowledge having a strong generalization ability. To tackle this issue, we introduce a novel Knowledge-guided Context Optimization (KgCoOp) to enhance the generalization ability of the learnable prompt for unseen classes. The key insight of KgCoOp is that forgetting about essential knowledge can be alleviated by reducing the discrepancy between the learnable prompt and the hand-crafted prompt. Especially, KgCoOp minimizes the discrepancy between the textual embeddings generated by learned prompts and the hand-crafted prompts. Finally, adding the KgCoOp upon the contrastive loss can make a discriminative prompt for both seen and unseen tasks. Extensive evaluation of several benchmarks demonstrates that the proposed Knowledge-guided Context Optimization is an efficient method for prompt tuning, \emph{i.e.,} achieves better performance with less training time.
arxiv情報
著者 | Hantao Yao,Rui Zhang,Changsheng Xu |
発行日 | 2023-03-23 14:04:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google