In-context Prompt Learning for Test-time Vision Recognition with Frozen Vision-language Model

要約

CLIP などの現在の事前トレーニング済みビジョン言語モデルは、さまざまな下流タスクにわたって優れたゼロショット汎化機能を実証しています。
ただし、テスト入力が異なる分布を示す場合、パフォーマンスは大幅に低下します。
このペーパーでは、テスト時プロンプト チューニング (TTPT) の概念について検討します。これにより、テスト サンプルのみを含む 1 ステップの教師なし最適化を通じて、新しい下流タスクへの CLIP モデルの適応が容易になります。
自然言語処理 (NLP) におけるインコンテキスト学習にヒントを得て、テスト時の視覚認識タスク向けにインコンテキスト プロンプト学習 (InCPL) を提案します。これにより、下流のコンテキスト情報としてラベル付けされた例を含む事前トレーニング済み視覚言語モデルが強化されます。
タスク。
具体的には、InCPL は、新しいテスト サンプルをコンテキスト情報として非常に少数のラベル付きサンプル (場合によっては 1 つだけ) に関連付け、テスト サンプルの信頼できるラベル推定を可能にし、モデルの適応を促進します。
これを達成するために、InCPL は、視覚的なプロンプト学習のためにテキストの事前情報を探索するために、効率的な言語から視覚への変換機能を採用しています。
さらに、テストサンプルに合わせて視覚的なプロンプトを最適化するために、コンテキストを認識した教師なし損失を導入します。
最後に、さまざまなモダリティ間での相互相乗効果を確保するために、視覚的プロンプトとテキストプロンプトの循環学習戦略を設計します。
これにより、学習済みの適応プロンプトを使用して、事前トレーニングされたフリーズされた CLIP モデルがあらゆるタスクに適応できるようになります。
私たちの手法は優れたパフォーマンスを実証し、さまざまな下流データセットにわたって最先端の結果を達成します。

要約(オリジナル)

Current pre-trained vision-language models, such as CLIP, have demonstrated remarkable zero-shot generalization capabilities across various downstream tasks. However, their performance significantly degrades when test inputs exhibit different distributions. In this paper, we explore the concept of test-time prompt tuning (TTPT), which facilitates the adaptation of the CLIP model to novel downstream tasks through a one-step unsupervised optimization that involves only test samples. Inspired by in-context learning in natural language processing (NLP), we propose In-Context Prompt Learning (InCPL) for test-time visual recognition tasks, which empowers a pre-trained vision-language model with labeled examples as context information on downstream task. Specifically, InCPL associates a new test sample with very few labeled examples (sometimes just one) as context information, enabling reliable label estimation for the test sample and facilitating model adaptation. To achieve this, InCPL employs an efficient language-to-vision translator to explore the textual prior information for visual prompt learning. Further, we introduce a context-aware unsupervised loss to optimize visual prompts tailored to test samples. Finally, we design a cyclic learning strategy for visual and textual prompts to ensure mutual synergy across different modalities. This enables a pre-trained, frozen CLIP model to adapt to any task using its learned adaptive prompt. Our method demonstrates superior performance and achieves state-of-the-art results across various downstream datasets.

arxiv情報

著者 Junhui Yin,Xinyu Zhang,Lin Wu,Xiaojie Wang
発行日 2024-08-19 14:22:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク