要約
CLIP などのビジョン言語モデルのゼロショット一般化が期待されているため、多数の下流タスクに対する即時学習を使用したモデルの採用が行われています。
これまでの研究では、エントロピー最小化を使用してテスト時のプロンプトを調整し、目に見えないドメインのテキスト プロンプトを適応させることが示されています。
これは効果的ではありますが、目に見えないドメインのパフォーマンス低下の主な原因である分散のシフトを見落としています。
この研究では、プロンプト チューニングを使用して、配布外 (OOD) テスト サンプル統計をソース データの統計と一致させることで、この問題を明示的に処理します。
単一のテスト サンプルを使用して、テスト ドメイン内のギャップを埋めるために機能分布のシフトを最小限に抑え、テスト時にマルチモーダル プロンプトを適応させます。
ドメイン汎化ベンチマークに対して評価すると、私たちの手法は既存のプロンプト学習手法を超えてゼロショット トップ 1 の精度を向上させ、ベースライン MaPLe より 3.08% 向上しました。
10 個のデータセットにわたる目に見えないカテゴリを使用したデータセット間一般化では、既存の最先端技術と比較して、すべてのデータセットにわたって一貫して改善された手法です。
私たちのソース コードとモデルは https://jameelhassan.github.io/promptalign で入手できます。
要約(オリジナル)
The promising zero-shot generalization of vision-language models such as CLIP has led to their adoption using prompt learning for numerous downstream tasks. Previous works have shown test-time prompt tuning using entropy minimization to adapt text prompts for unseen domains. While effective, this overlooks the key cause for performance degradation to unseen domains — distribution shift. In this work, we explicitly handle this problem by aligning the out-of-distribution (OOD) test sample statistics to those of the source data using prompt tuning. We use a single test sample to adapt multi-modal prompts at test time by minimizing the feature distribution shift to bridge the gap in the test domain. Evaluating against the domain generalization benchmark, our method improves zero-shot top- 1 accuracy beyond existing prompt-learning techniques, with a 3.08% improvement over the baseline MaPLe. In cross-dataset generalization with unseen categories across 10 datasets, our method improves consistently across all datasets compared to the existing state-of-the-art. Our source code and models are available at https://jameelhassan.github.io/promptalign.
arxiv情報
著者 | Jameel Hassan,Hanan Gani,Noor Hussein,Muhammad Uzair Khattak,Muzammal Naseer,Fahad Shahbaz Khan,Salman Khan |
発行日 | 2023-11-02 17:59:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google