Can Better Text Semantics in Prompt Tuning Improve VLM Generalization?

要約

ビジョン言語モデル (VLM) の単なる微調整を超えて、学習可能なプロンプト チューニングが、リソース効率の高い有望な代替手段として浮上しています。
プロンプトの潜在的な可能性にもかかわらず、効果的に学習するプロンプトは次の課題に直面します。(i) ローショット シナリオでトレーニングすると過剰適合が発生し、適応性が制限され、新しいクラスやデータセットではパフォーマンスが低下します。
(ii) プロンプトチューニングの有効性はラベル空間に大きく依存しており、大規模なクラス空間ではパフォーマンスが低下し、イメージとクラスの概念の橋渡しに潜在的なギャップがあることを示しています。
この研究では、より良いテキスト セマンティクスがこれらの懸念に対処するのに役立つかどうかという質問をします。
特に、大規模言語モデル (LLM) から取得したクラス記述を活用するプロンプト チューニング手法を紹介します。
私たちのアプローチは、画像とテキストの両方の機能の部品レベルの説明ガイド付きビューを構築し、その後、より一般化可能なプロンプトを学習するために調整されます。
11 のベンチマーク データセットにわたって実施された当社の包括的な実験は、確立された手法を上回るパフォーマンスを示し、大幅な改善を実証しました。

要約(オリジナル)

Going beyond mere fine-tuning of vision-language models (VLMs), learnable prompt tuning has emerged as a promising, resource-efficient alternative. Despite their potential, effectively learning prompts faces the following challenges: (i) training in a low-shot scenario results in overfitting, limiting adaptability and yielding weaker performance on newer classes or datasets; (ii) prompt-tuning’s efficacy heavily relies on the label space, with decreased performance in large class spaces, signaling potential gaps in bridging image and class concepts. In this work, we ask the question if better text semantics can help address these concerns. In particular, we introduce a prompt-tuning method that leverages class descriptions obtained from large language models (LLMs). Our approach constructs part-level description-guided views of both image and text features, which are subsequently aligned to learn more generalizable prompts. Our comprehensive experiments, conducted across 11 benchmark datasets, outperform established methods, demonstrating substantial improvements.

arxiv情報

著者 Hari Chandana Kuchibhotla,Sai Srinivas Kancheti,Abbavaram Gowtham Reddy,Vineeth N Balasubramanian
発行日 2024-05-13 16:52:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク