要約
迅速な学習を備えた画像言語モデルは、多くの下流の視覚タスクにおいて目覚ましい進歩を示しました。
それにもかかわらず、従来の即時学習方法は、トレーニング分布に過度に適合し、テスト分布での汎化能力を失います。
さまざまな分布シフトにわたる汎化を改善するために、プロンプト学習中のトレーニングとテスト分布の間の関係を考慮する一般的な確率的推論フレームワークである、任意のシフト プロンプティングを提案します。
階層アーキテクチャでトレーニングとテストのプロンプトを構築することにより、潜在空間でトレーニングとテストの配布を明示的に接続します。
このフレームワーク内で、テスト プロンプトは配布関係を利用して、トレーニングから任意のテスト配布まで CLIP イメージ言語モデルの一般化をガイドします。
分布情報とその関係を効果的にエンコードするために、擬似シフト トレーニング メカニズムを備えたトランスフォーマー推論ネットワークをさらに導入します。
ネットワークは、フィードフォワード パス内のトレーニング情報とテスト情報の両方を使用して調整されたテスト プロンプトを生成し、テスト時の追加のトレーニング コストを回避します。
23 のデータセットに関する広範な実験により、さまざまな分布シフトにわたる一般化に対する任意のシフト プロンプトの有効性が実証されました。
要約(オリジナル)
Image-language models with prompt learning have shown remarkable advances in numerous downstream vision tasks. Nevertheless, conventional prompt learning methods overfit their training distribution and lose the generalization ability on test distributions. To improve generalization across various distribution shifts, we propose any-shift prompting: a general probabilistic inference framework that considers the relationship between training and test distributions during prompt learning. We explicitly connect training and test distributions in the latent space by constructing training and test prompts in a hierarchical architecture. Within this framework, the test prompt exploits the distribution relationships to guide the generalization of the CLIP image-language model from training to any test distribution. To effectively encode the distribution information and their relationships, we further introduce a transformer inference network with a pseudo-shift training mechanism. The network generates the tailored test prompt with both training and test information in a feedforward pass, avoiding extra training costs at test time. Extensive experiments on twenty-three datasets demonstrate the effectiveness of any-shift prompting on the generalization over various distribution shifts.
arxiv情報
著者 | Zehao Xiao,Jiayi Shen,Mohammad Mahdi Derakhshani,Shengcai Liao,Cees G. M. Snoek |
発行日 | 2024-02-15 16:53:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google