要約
領域適応はコンピュータビジョンにおいて広く研究されているが、訓練時にターゲット画像にアクセスする必要があり、特にロングテール標本の場合、条件によっては実行不可能である可能性がある。本論文では、「プロンプト駆動ゼロショット領域適応」という課題を提案する。これは、ターゲット領域に関する一般的なテキスト記述、すなわちプロンプトのみを用いて、ソース領域で学習したモデルを適応させるものである。まず、事前に学習したコントラスト視覚言語モデル(CLIP)を活用して、ソース特徴のアフィン変換を最適化し、その内容や意味を保持したまま、ターゲットテキストの埋め込みに近づけることができる。次に、拡張された特徴を用いて、意味的セグメンテーションのためのゼロショット領域適応を行うことができることを示す。実験により、本手法はCLIPベースのスタイル変換ベースラインを下流タスクのいくつかのデータセットで大幅に上回ることが実証された。また、プロンプト駆動型アプローチは、いくつかのデータセットではワンショット教師なしドメイン適合を上回り、他のデータセットでは同等の結果を得ることができる。コードは https://github.com/astra-vision/PODA で公開されています。
要約(オリジナル)
Domain adaptation has been vastly investigated in computer vision but still requires access to target images at train time, which might be intractable in some conditions, especially for long-tail samples. In this paper, we propose the task of `Prompt-driven Zero-shot Domain Adaptation’, where we adapt a model trained on a source domain using only a general textual description of the target domain, i.e., a prompt. First, we leverage a pretrained contrastive vision-language model (CLIP) to optimize affine transformations of source features, bringing them closer to target text embeddings, while preserving their content and semantics. Second, we show that augmented features can be used to perform zero-shot domain adaptation for semantic segmentation. Experiments demonstrate that our method significantly outperforms CLIP-based style transfer baselines on several datasets for the downstream task at hand. Our prompt-driven approach even outperforms one-shot unsupervised domain adaptation on some datasets, and gives comparable results on others. The code is available at https://github.com/astra-vision/PODA.
arxiv情報
著者 | Mohammad Fahes,Tuan-Hung Vu,Andrei Bursuc,Patrick Pérez,Raoul de Charette |
発行日 | 2022-12-06 18:59:58+00:00 |
arxivサイト | arxiv_id(pdf) |