Advancing Prompt Learning through an External Layer

要約

プロンプト学習は、一連のテキスト埋め込みを学習することで、事前トレーニングされたビジョン言語モデル (VLM) をさまざまな下流タスクに適応させるための有望な方法を表します。
これらの方法に固有の課題の 1 つは、目に見えないタスクに対する学習されたテキストの埋め込みが無効であるため、汎化パフォーマンスが低いことです。
このギャップを埋める簡単なアプローチは、プロンプト内のテキスト埋め込みをフリーズすることです。その結果、VLM をダウンストリーム タスクに適応させる能力が不足します。
このジレンマに対処するために、新しい外部レイヤー (EnLa) を​​備えた EnPrompt と呼ばれるパラダイムを提案します。
具体的には、VLM を下流のタスクに適応させるためのテキストの外部レイヤーと学習可能な視覚的な埋め込みを提案します。
学習可能な外部層は、事前トレーニングされた CLIP の有効な埋め込みに基づいて構築されます。
この設計では、2 つのブランチ間の学習機能のバランスが考慮されています。
テキストと視覚の特徴を調整するために、我々は新しい 2 つのアプローチを提案します。i) 視覚とテキストのモダリティを調整するための不一致メトリックとして最適なトランスポートを導入します。ii) 視覚とテキストのモダリティ間の相互作用を強化するための新しい強化機能を導入します。
この 2 つのモダリティ。
15 個のデータセットにわたる 4 つの代表的な実験 (すなわち、基礎から新規への一般化、少数ショット学習、データセット間一般化、ドメインシフト一般化) は、私たちの方法が既存のプロンプト学習方法よりも優れていることを示しています。

要約(オリジナル)

Prompt learning represents a promising method for adapting pre-trained vision-language models (VLMs) to various downstream tasks by learning a set of text embeddings. One challenge inherent to these methods is the poor generalization performance due to the invalidity of the learned text embeddings for unseen tasks. A straightforward approach to bridge this gap is to freeze the text embeddings in prompts, which results in a lack of capacity to adapt VLMs for downstream tasks. To address this dilemma, we propose a paradigm called EnPrompt with a novel External Layer (EnLa). Specifically, we propose a textual external layer and learnable visual embeddings for adapting VLMs to downstream tasks. The learnable external layer is built upon valid embeddings of pre-trained CLIP. This design considers the balance of learning capabilities between the two branches. To align the textual and visual features, we propose a novel two-pronged approach: i) we introduce the optimal transport as the discrepancy metric to align the vision and text modalities, and ii) we introduce a novel strengthening feature to enhance the interaction between these two modalities. Four representative experiments (i.e., base-to-novel generalization, few-shot learning, cross-dataset generalization, domain shifts generalization) across 15 datasets demonstrate that our method outperforms the existing prompt learning method.

arxiv情報

著者 Fangming Cui,Xun Yang,Chao Wu,Liang Xiao,Xinmei Tian
発行日 2024-08-08 02:39:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク