Dude: Dual Distribution-Aware Context Prompt Learning For Large Vision-Language Model

要約

プロンプト学習法は、事前に訓練された文脈知識と最小限の訓練データを用いて、大規模な視覚言語モデルを新たなドメインにカスタマイズすることができるため、注目が高まっている。しかしながら、既存の研究では、一般的に統一的なプロンプト入力を最適化することに依存しており、識別属性が不十分なため、しばしば細かい分類タスクに苦戦している。この問題に取り組むため、我々は、ドメイン共有コンテキストとクラス固有コンテキストのデュアルコンテキストに基づく新しいフレームワークを検討する。このようなデュアルプロンプト手法は、LLMの知識にエンコードされた暗黙的要素と明示的要素を結合することで、モデルの特徴表現を強化する。さらに、構築されたプロンプトと視覚的トークンとの関係を定量化するために、アンバランス最適輸送(UOT)理論を定式化する。部分マッチングにより、UOTは異なる質量分布のもとで、視覚的トークンとプロンプトの埋め込みの離散集合を適切に整列させることができる。これは、無関係な要素やノイズの多い要素を扱う際に特に有用であり、質量の保存が輸送解を制限しないことを保証する。さらに、UOTの特性は画像増強とシームレスに統合され、摂動画像とプロンプト入力の間の合理的な距離を維持しながら学習サンプルプールを拡張する。数ショットの分類とアダプター設定にわたる広範な実験により、我々のモデルが現在の最先端のベースラインよりも優れていることが実証された。

要約(オリジナル)

Prompt learning methods are gaining increasing attention due to their ability to customize large vision-language models to new domains using pre-trained contextual knowledge and minimal training data. However, existing works typically rely on optimizing unified prompt inputs, often struggling with fine-grained classification tasks due to insufficient discriminative attributes. To tackle this, we consider a new framework based on a dual context of both domain-shared and class-specific contexts, where the latter is generated by Large Language Models (LLMs) such as GPTs. Such dual prompt methods enhance the model’s feature representation by joining implicit and explicit factors encoded in LLM knowledge. Moreover, we formulate the Unbalanced Optimal Transport (UOT) theory to quantify the relationships between constructed prompts and visual tokens. Through partial matching, UOT can properly align discrete sets of visual tokens and prompt embeddings under different mass distributions, which is particularly valuable for handling irrelevant or noisy elements, ensuring that the preservation of mass does not restrict transport solutions. Furthermore, UOT’s characteristics integrate seamlessly with image augmentation, expanding the training sample pool while maintaining a reasonable distance between perturbed images and prompt inputs. Extensive experiments across few-shot classification and adapter settings substantiate the superiority of our model over current state-of-the-art baselines.

arxiv情報

著者 Duy M. H. Nguyen,An T. Le,Trung Q. Nguyen,Nghiem T. Diep,Tai Nguyen,Duy Duong-Tran,Jan Peters,Li Shen,Mathias Niepert,Daniel Sonntag
発行日 2024-07-05 13:15:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク