要約
CLIP などのビジョン言語 (V-L) モデルのゼロショット一般化の可能性により、多数の下流タスクに対処する際の広範な採用が促進されました。
以前の方法では、テスト時のプロンプト調整を使用して、モデルを目に見えない領域に適応させていましたが、不均衡なクラス分布の問題を見落としていました。
この研究では、テスト サンプルとフィルター処理された拡張ビューに対して取得された平均クラス確率によって重み付けされたクラス認識プロトタイプ アライメントを採用することで、この問題に明示的に対処しました。
さらに、対照学習を使用してプロトタイプ識別を実行することにより、クラス確率が可能な限り正確であることを保証します。
アライメントと識別損失の組み合わせは幾何学的正則化として機能し、プロンプト表現が単一のクラスに崩れることを防ぎ、ソース ドメインとテスト ドメイン間の分布ギャップを効果的に橋渡しします。
PromptSync という名前のこのメソッドは、V-L モデルのテキスト ブランチとビジョン ブランチの両方で各テスト サンプルのプロンプトを同期します。
ドメイン汎化ベンチマークの経験的評価では、私たちの手法は、全体的なパフォーマンスで 2.33%、基礎から新規への汎化で 1%、データセット間の転送タスクで 2.84% 、これまでの最良の手法よりも優れています。
要約(オリジナル)
The potential for zero-shot generalization in vision-language (V-L) models such as CLIP has spurred their widespread adoption in addressing numerous downstream tasks. Previous methods have employed test-time prompt tuning to adapt the model to unseen domains, but they overlooked the issue of imbalanced class distributions. In this study, we explicitly address this problem by employing class-aware prototype alignment weighted by mean class probabilities obtained for the test sample and filtered augmented views. Additionally, we ensure that the class probabilities are as accurate as possible by performing prototype discrimination using contrastive learning. The combination of alignment and discriminative loss serves as a geometric regularizer, preventing the prompt representation from collapsing onto a single class and effectively bridging the distribution gap between the source and test domains. Our method, named PromptSync, synchronizes the prompts for each test sample on both the text and vision branches of the V-L model. In empirical evaluations on the domain generalization benchmark, our method outperforms previous best methods by 2.33% in overall performance, by 1% in base-to-novel generalization, and by 2.84% in cross-dataset transfer tasks.
arxiv情報
著者 | Anant Khandelwal |
発行日 | 2024-04-12 17:01:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google