COSMo: CLIP Talks on Open-Set Multi-Target Domain Adaptation

要約

マルチターゲット ドメイン アダプテーション (MTDA) では、単一のソース ドメインからドメイン不変の情報を学習し、それを複数のラベルのないターゲット ドメインに適用します。
しかし、既存の MTDA 手法は主に視覚的特徴内のドメイン シフトに対処することに焦点を当てており、多くの場合意味論的特徴を見落としたり、未知のクラスの処理に苦労したりする結果、オープンセット (OS) MTDA と呼ばれるものが生じます。
CLIP のような大規模なビジョン言語基盤モデルは有望ですが、MTDA に対するその可能性はほとんど解明されていません。
この論文では、プロンプト空間で MTDA 問題に取り組むために、ソース ドメイン主導のプロンプト学習を通じてドメインに依存しないプロンプトを学習する新しい方法である COSMo を紹介します。
ドメイン固有のバイアス ネットワークと、既知のクラスと未知のクラスに対する個別のプロンプトを活用することで、COSMo はドメインとクラスの移行に効果的に適応します。
私たちの知る限り、COSMo はオープンセット マルチターゲット DA (OSMTDA) に対応する最初の方法であり、現実世界のシナリオをより現実的に表現し、オープンセットとマルチターゲット DA の両方の課題に対処します。
COSMo は、OSMTDA 設定内で動作するように適応された他の関連 DA 手法と比較して、Mini-DomainNet、Office-31、Office-Home の 3 つの困難なデータセット全体で平均 $5.1\%$ の改善を示しています。
コードはhttps://github.com/munish30monga/COSMoで入手できます。

要約(オリジナル)

Multi-Target Domain Adaptation (MTDA) entails learning domain-invariant information from a single source domain and applying it to multiple unlabeled target domains. Yet, existing MTDA methods predominantly focus on addressing domain shifts within visual features, often overlooking semantic features and struggling to handle unknown classes, resulting in what is known as Open-Set (OS) MTDA. While large-scale vision-language foundation models like CLIP show promise, their potential for MTDA remains largely unexplored. This paper introduces COSMo, a novel method that learns domain-agnostic prompts through source domain-guided prompt learning to tackle the MTDA problem in the prompt space. By leveraging a domain-specific bias network and separate prompts for known and unknown classes, COSMo effectively adapts across domain and class shifts. To the best of our knowledge, COSMo is the first method to address Open-Set Multi-Target DA (OSMTDA), offering a more realistic representation of real-world scenarios and addressing the challenges of both open-set and multi-target DA. COSMo demonstrates an average improvement of $5.1\%$ across three challenging datasets: Mini-DomainNet, Office-31, and Office-Home, compared to other related DA methods adapted to operate within the OSMTDA setting. Code is available at: https://github.com/munish30monga/COSMo

arxiv情報

著者 Munish Monga,Sachin Kumar Giroh,Ankit Jha,Mainak Singha,Biplab Banerjee,Jocelyn Chanussot
発行日 2024-12-16 17:43:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク