Context-Aware Prompt Tuning for Vision-Language Model with Dual-Alignment

要約

CLIP などの大規模ビジョン言語モデル (VLM) は、退屈なトレーニング データから広範な視覚概念を学習し、優れた一般化能力を示します。
わずか数個のトレーニング サンプルで VLM を下流タスクに効率的に適応させるために、大量の即時学習方法が提案されています。
我々は、Dual-Aligned Prompt Tuning (DuAl-PT) と呼ばれる、事前トレーニング済みの大規模言語モデル (LLM) を組み込むことで、視覚言語モデルの迅速な学習を改善する新しい方法を紹介します。
CoOp のような学習可能なプロンプトは、エンドツーエンドのトレーニングを通じて暗黙的にコンテキストをモデル化しますが、制御や解釈が困難です。
GPT-3 などの LLM によって生成された明示的なコンテキスト記述は、ゼロショット分類に直接使用できますが、そのようなプロンプトは LLM に過度に依存しており、少数ショットのドメインではまだ調査が不十分です。
DuAl-PT を使用すると、明示的および暗黙的なコンテキスト モデリングの両方からメリットを得て、よりコンテキストを意識したプロンプトを学習することを提案します。
これを達成するために、コンテキストの説明を生成する事前トレーニング済み LLM を導入し、プロンプトとローカル画像特徴間の位置合わせだけでなく、位置合わせによって LLM の知識から学習することをプロンプトに奨励します。
経験的に、DuAl-PT は 11 の下流データセット上で、少数ショット認識とベースから新しい一般化において優れたパフォーマンスを達成します。
DuAl-PT が強力なベースラインとして機能することを願っています。
コードが利用可能になります。

要約(オリジナル)

Large-scale vision-language models (VLMs), e.g., CLIP, learn broad visual concepts from tedious training data, showing superb generalization ability. Amount of prompt learning methods have been proposed to efficiently adapt the VLMs to downstream tasks with only a few training samples. We introduce a novel method to improve the prompt learning of vision-language models by incorporating pre-trained large language models (LLMs), called Dual-Aligned Prompt Tuning (DuAl-PT). Learnable prompts, like CoOp, implicitly model the context through end-to-end training, which are difficult to control and interpret. While explicit context descriptions generated by LLMs, like GPT-3, can be directly used for zero-shot classification, such prompts are overly relying on LLMs and still underexplored in few-shot domains. With DuAl-PT, we propose to learn more context-aware prompts, benefiting from both explicit and implicit context modeling. To achieve this, we introduce a pre-trained LLM to generate context descriptions, and we encourage the prompts to learn from the LLM’s knowledge by alignment, as well as the alignment between prompts and local image features. Empirically, DuAl-PT achieves superior performance on 11 downstream datasets on few-shot recognition and base-to-new generalization. Hopefully, DuAl-PT can serve as a strong baseline. Code will be available.

arxiv情報

著者 Hongyu Hu,Tiancheng Lin,Jie Wang,Zhenbang Sun,Yi Xu
発行日 2023-09-08 06:51:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク