Patch-Prompt Aligned Bayesian Prompt Tuning for Vision-Language Models

要約

視覚言語の事前トレーニング済みモデルの下流アプリケーションでは、効果的なプロンプトの構築に大きな関心が寄せられています。
プロンプトエンジニアリングに関する既存の研究は、骨の折れる手動設計を必要とするか、点推定問題としてプロンプトチューニングを最適化するかのいずれかであり、カテゴリの多様な特性を記述できず、その用途が制限される可能性があります。
プロンプト調整にベイズ確率的解決法を導入します。この場合、ラベル固有の確率的プロンプトは、最初に基礎となる分布から潜在ベクトルをサンプリングし、次に軽量の生成モデルを採用することによって階層的に生成されます。
重要なのは、視覚パッチと言語プロンプトの間の統計的距離を最小限に抑えることで、調整プロセスを意味的に正規化することです。これにより、トレーニング カテゴリを過剰適合させるのではなく、確率的ラベル表現が多様な視覚概念を忠実に捕捉するようになります。
私たちは、少数ショット画像認識、基本から新しい一般化、データセット転移学習、ドメイン シフトの 4 つのタスクに対するアプローチの有効性を評価します。
15 のデータセットにわたる広範な結果は、定量的および定性的な両方で、提案されたモデルの有望な伝達可能性と一般化パフォーマンスを示しています。

要約(オリジナル)

For downstream applications of vision-language pre-trained models, there has been significant interest in constructing effective prompts. Existing works on prompt engineering, which either require laborious manual designs or optimize the prompt tuning as a point estimation problem, may fail to describe diverse characteristics of categories and limit their applications. We introduce a Bayesian probabilistic resolution to prompt tuning, where the label-specific stochastic prompts are generated hierarchically by first sampling a latent vector from an underlying distribution and then employing a lightweight generative model. Importantly, we semantically regularize the tuning process by minimizing the statistical distance between the visual patches and linguistic prompts, which pushes the stochastic label representations to faithfully capture diverse visual concepts, instead of overfitting the training categories. We evaluate the effectiveness of our approach on four tasks: few-shot image recognition, base-to-new generalization, dataset transfer learning, and domain shifts. Extensive results over 15 datasets show promising transferability and generalization performance of our proposed model, both quantitatively and qualitatively.

arxiv情報

著者 Xinyang Liu,Dongsheng Wang,Bowei Fang,Miaoge Li,Zhibin Duan,Yishi Xu,Bo Chen,Mingyuan Zhou
発行日 2024-07-01 15:29:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク