要約
タイトル: Compositional Zero-Shot Learningに対するソフトプロンプトの学習についての研究
要約:
– 大規模な事前学習済みビジョン・ランゲージモデル(CLIPなど)におけるゼロショットの合成性を改善するための、パラメータ効率的な学習技術である「Compositional soft prompting(CSP)」を導入する。
– CSPは、未知の属性-オブジェクトの構成(たとえば、老猫と若いトラ)を予測するタスクのために開発された、Compositional Zero-Shot Learningにおける手法である。
– VLMはテキストエンコーダが柔軟で、任意のクラスを自然言語のプロンプトとして表現できるが、合成的ゼロショットのベンチマーク・データセットでは、タスク固有のアーキテクチャに比べて性能が劣ることが多い。
– CSPは、クラスを定義する属性とオブジェクトを学習可能な語彙のトークンとして扱う。トレーニング中に、語彙を調整し、トークンを複数の方法で合成したクラスを認識できるようにする(たとえば、老猫と白い猫)。テスト時には、学習された属性-オブジェクト語彙を新しい組み合わせで再構成して、新規のクラスを認識する。
– CSPは、ベンチマーク・データセットにおいて、平均的にAUCで10.9パーセントポイント優れており、CoOp(プレフィックスのコンテキスト・トークンを微調整するソフトプロンプティング手法)よりも平均的にAUCで5.8パーセントポイント優れていることを示している。
– CSPは、高次の属性-属性-オブジェクト組み合わせ(たとえば、老白猫)や、事前学習された属性とファインチューニングされたオブジェクトの組み合わせにおいても一般化を改善することが実証されている。
– コードはhttps://github.com/BatsResearch/cspで入手可能。
要約(オリジナル)
We introduce compositional soft prompting (CSP), a parameter-efficient learning technique to improve the zero-shot compositionality of large-scale pretrained vision-language models (VLMs) like CLIP. We develop CSP for compositional zero-shot learning, the task of predicting unseen attribute-object compositions (e.g., old cat and young tiger). VLMs have a flexible text encoder that can represent arbitrary classes as natural language prompts but they often underperform task-specific architectures on the compositional zero-shot benchmark datasets. CSP treats the attributes and objects that define classes as learnable tokens of vocabulary. During training, the vocabulary is tuned to recognize classes that compose tokens in multiple ways (e.g., old cat and white cat). At test time, we recompose the learned attribute-object vocabulary in new combinations to recognize novel classes. We show that CSP outperforms the CLIP on benchmark datasets by an average of 10.9 percentage points on AUC. CSP also outperforms CoOp, a soft prompting method that fine-tunes the prefix context tokens, by an average of 5.8 percentage points on AUC. We perform additional experiments to show that CSP improves generalization to higher-order attribute-attribute-object compositions (e.g., old white cat) and combinations of pretrained attributes and fine-tuned objects. The code is available at https://github.com/BatsResearch/csp.
arxiv情報
著者 | Nihal V. Nayak,Peilin Yu,Stephen H. Bach |
発行日 | 2023-04-24 15:46:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI