要約
この研究では、プロンプトベースの学習フレームワークにおいて、事前に学習した大規模な視覚言語モデル(VLM)のゼロショット合成学習能力を調査し、合成的ゼロショット学習(CZSL)問題を解決するモデル( \textit{PromptCompVL})を提案しています。\まず、ハードプロンプトの代わりにソフトプロンプトを用いて、学習可能なパラメータを注入し、VLMを構成的学習に再プログラムすることです。第二に、構成的な課題に対処するために、ソフトエンベッド層を用い、原始的な概念を様々な組み合わせで学習する。ソフトエンベッドとソフトプロンプトを組み合わせることで、MIT-Statesデータセットにおいて最先端の性能を達成しました。さらに、提案モデルは他のCLIPベースの手法と比較して一貫した改善を達成し、CZSLに対する提案プロンプト戦略の有効性を示しています。
要約(オリジナル)
This work explores the zero-shot compositional learning ability of large pre-trained vision-language models(VLMs) within the prompt-based learning framework and propose a model (\textit{PromptCompVL}) to solve the compositonal zero-shot learning (CZSL) problem. \textit{PromptCompVL} makes two design choices: first, it uses a soft-prompting instead of hard-prompting to inject learnable parameters to reprogram VLMs for compositional learning. Second, to address the compositional challenge, it uses the soft-embedding layer to learn primitive concepts in different combinations. By combining both soft-embedding and soft-prompting, \textit{PromptCompVL} achieves state-of-the-art performance on the MIT-States dataset. Furthermore, our proposed model achieves consistent improvement compared to other CLIP-based methods which shows the effectiveness of the proposed prompting strategies for CZSL.
arxiv情報
著者 | Guangyue Xu,Parisa Kordjamshidi,Joyce Chai |
発行日 | 2022-11-09 18:08:53+00:00 |
arxivサイト | arxiv_id(pdf) |