Conditional Prompt Learning for Vision-Language Models

要約

CLIPのような強力な事前学習済み視覚言語モデルの台頭により、これらのモデルを下流のデータセットに適応させる方法を検討することが不可欠となっている。最近提案されたContext Optimization (CoOp) という手法は、NLPの最近のトレンドであるプロンプト学習の概念を視覚領域に導入し、事前に学習された視覚言語モデルを適応させるものである。具体的には、CoOpはプロンプト内の文脈語を学習可能なベクトル集合に変換し、学習用のラベル付き画像を数枚用意するだけで、集中的に調整された手動プロンプトよりも大きな改善を達成することが可能である。本研究では、CoOpの重大な問題点として、学習された文脈が同じデータセット内のより広い未知のクラスに対して一般化できないこと、つまりCoOpが学習中に観測された基本クラスを過剰に適合させていることを明らかにした。この問題を解決するために、我々は条件付きコンテキスト最適化(CoCoOp)を提案する。CoCoOpは、各画像に対して入力-条件トークン(ベクトル)を生成する軽量ニューラルネットワークをさらに学習することによりCoOpを拡張したものである。CoOpの静的プロンプトと比較して、我々の動的プロンプトは各インスタンスに適応するため、クラスシフトに影響されにくい。CoCoOpはCoOpに比べ、未知のクラスへの汎化が非常に優れており、単一データセット以外への転用も可能であることが広範な実験により示されている。コードは https://github.com/KaiyangZhou/CoOp で公開されています。

要約(オリジナル)

With the rise of powerful pre-trained vision-language models like CLIP, it becomes essential to investigate ways to adapt these models to downstream datasets. A recently proposed method named Context Optimization (CoOp) introduces the concept of prompt learning — a recent trend in NLP — to the vision domain for adapting pre-trained vision-language models. Specifically, CoOp turns context words in a prompt into a set of learnable vectors and, with only a few labeled images for learning, can achieve huge improvements over intensively-tuned manual prompts. In our study we identify a critical problem of CoOp: the learned context is not generalizable to wider unseen classes within the same dataset, suggesting that CoOp overfits base classes observed during training. To address the problem, we propose Conditional Context Optimization (CoCoOp), which extends CoOp by further learning a lightweight neural network to generate for each image an input-conditional token (vector). Compared to CoOp’s static prompts, our dynamic prompts adapt to each instance and are thus less sensitive to class shift. Extensive experiments show that CoCoOp generalizes much better than CoOp to unseen classes, even showing promising transferability beyond a single dataset; and yields stronger domain generalization performance as well. Code is available at https://github.com/KaiyangZhou/CoOp.

arxiv情報

著者 Kaiyang Zhou,Jingkang Yang,Chen Change Loy,Ziwei Liu
発行日 2022-10-06 11:52:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク