Adaptive Prompt Tuning: Vision Guided Prompt Tuning with Cross-Attention for Fine-Grained Few-Shot Learning


コンピュータ ビジョンにおける少数ショットのきめ細かい分類は、限られたデータで微妙なクラスの区別を区別する必要があるため、重大な課題を引き起こします。
この論文では、リアルタイムの視覚入力に基づいた適応型プロンプト調整を通じて対照言語画像事前トレーニング (CLIP) モデルを強化する新しい方法を紹介します。
静的なプロンプトや視覚的なトークンへの依存によって制約されるコンテキスト最適化 (CoOp) やビジュアル プロンプト チューニング (VPT) などの既存の手法とは異なり、提案されたアプローチはクロスアテンション メカニズムを利用して、手元の画像に対するテキスト プロンプトを動的に調整します。
これにより、Vision Transformer から抽出された画像パッチを使用したテキスト特徴の画像固有の位置合わせが可能になり、クラス内分散が高く、クラス間差異が低いデータセットに対してモデルがより効果的になります。
この方法は、CUBirds、Oxford Flowers、FGVC Aircraft を含むいくつかのデータセットで評価され、静的プロンプト調整アプローチと比較して大幅なパフォーマンスの向上が示されています。
これらのパフォーマンスの向上が信頼できる予測に確実に反映されるように、モンテカルロ ドロップアウトをアプローチに統合して、モデルの予測と不確実性の推定の信頼性を向上させます。


Few-shot, fine-grained classification in computer vision poses significant challenges due to the need to differentiate subtle class distinctions with limited data. This paper presents a novel method that enhances the Contrastive Language-Image Pre-Training (CLIP) model through adaptive prompt tuning, guided by real-time visual inputs. Unlike existing techniques such as Context Optimization (CoOp) and Visual Prompt Tuning (VPT), which are constrained by static prompts or visual token reliance, the proposed approach leverages a cross-attention mechanism to dynamically refine text prompts for the image at hand. This enables an image-specific alignment of textual features with image patches extracted from the Vision Transformer, making the model more effective for datasets with high intra-class variance and low inter-class differences. The method is evaluated on several datasets, including CUBirds, Oxford Flowers, and FGVC Aircraft, showing significant performance gains over static prompt tuning approaches. To ensure these performance gains translate into trustworthy predictions, we integrate Monte-Carlo Dropout in our approach to improve the reliability of the model predictions and uncertainty estimates. This integration provides valuable insights into the model’s predictive confidence, helping to identify when predictions can be trusted and when additional verification is necessary. This dynamic approach offers a robust solution, advancing the state-of-the-art for few-shot fine-grained classification.


著者 Eric Brouwer,Jan Erik van Woerden,Gertjan Burghouts,Matias Valdenegro-Toro,Marco Zullich
発行日 2025-01-01 18:00:00+00:00
