要約
深層学習モデルは教師あり学習タスクで優れたパフォーマンスを示していますが、トレーニング (ソース) ドメインとテスト (ターゲット) ドメインが異なる場合、うまく一般化するのに苦労することがよくあります。
この問題に対する一般的な解決策として、教師なしドメイン アダプテーション (DA) が登場しました。
ただし、現在の DA 技術は視覚的なバックボーンに依存しているため、意味的な豊かさが欠けている可能性があります。
CLIP のような大規模なビジョン言語基盤モデルの可能性にもかかわらず、DA に対するその有効性はまだ十分に調査されていません。
このギャップに対処するために、プロンプト空間における DA 問題を解決することを目的とした、CLIP のドメインに依存しないプロンプト学習戦略である AD-CLIP を導入します。
CLIP のフリーズ ビジョン バックボーンを活用して、画像スタイル (ドメイン) とコンテンツ情報の両方を抽出し、プロンプト トークンの学習に適用します。
私たちのプロンプトは、画像スタイルとコンテンツの特徴を同時にプロンプト学習に条件付けることにより、ドメイン不変でクラス一般化可能になるように設計されています。
ソースドメインでは標準の教師あり対比学習を使用し、ターゲットドメインのデータを考慮して埋め込み空間でドメインを整列させるエントロピー最小化戦略を提案します。
また、ソース ドメイン データがなく、テスト中にターゲット ドメイン サンプルのみが利用できるシナリオも考慮し、ドメインに依存しないトークンを幻覚させるためのクロスドメイン スタイルのマッピング ネットワークを提案します。
3 つのベンチマーク DA データセットに対する広範な実験により、既存の文献と比較した AD-CLIP の有効性が実証されました。
要約(オリジナル)
Although deep learning models have shown impressive performance on supervised learning tasks, they often struggle to generalize well when the training (source) and test (target) domains differ. Unsupervised domain adaptation (DA) has emerged as a popular solution to this problem. However, current DA techniques rely on visual backbones, which may lack semantic richness. Despite the potential of large-scale vision-language foundation models like CLIP, their effectiveness for DA has yet to be fully explored. To address this gap, we introduce AD-CLIP, a domain-agnostic prompt learning strategy for CLIP that aims to solve the DA problem in the prompt space. We leverage the frozen vision backbone of CLIP to extract both image style (domain) and content information, which we apply to learn prompt tokens. Our prompts are designed to be domain-invariant and class-generalizable, by conditioning prompt learning on image style and content features simultaneously. We use standard supervised contrastive learning in the source domain, while proposing an entropy minimization strategy to align domains in the embedding space given the target domain data. We also consider a scenario where only target domain samples are available during testing, without any source domain data, and propose a cross-domain style mapping network to hallucinate domain-agnostic tokens. Our extensive experiments on three benchmark DA datasets demonstrate the effectiveness of AD-CLIP compared to existing literature.
arxiv情報
著者 | Mainak Singha,Harsh Pal,Ankit Jha,Biplab Banerjee |
発行日 | 2023-08-10 15:58:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google