要約
Universal Multi-source Domain Adaptation (UniMDA) は、ドメイン シフト (異なるデータ分布) およびクラス シフト (未知のターゲット クラス) のもとで、複数のラベル付きソース ドメインからラベルなしのターゲット ドメインに知識を転送します。
既存のソリューションは、テキストの意味論に含まれる豊富な情報を無視して、画像の特徴を発掘して未知のサンプルを検出することに重点を置いています。
この論文では、UniMDA 分類タスクのための、Contrastive Language-Image Pre-training (APNE-CLIP) に基づく、Negative textual semantics と uncErtainty モデリング手法を使用した適応プロンプト学習を提案します。
具体的には、アダプティブ プロンプトを備えた CLIP を利用して、クラス セマンティクスとドメイン表現のテキスト情報を活用し、モデルが未知のサンプルを識別し、ドメインのシフトに対処できるようにします。
さらに、ネガティブ テキスト セマンティクスを利用して、より正確な画像とテキストのペアの位置合わせを実現する、新しいグローバル インスタンス レベルの位置合わせ目標を設計します。
さらに、既知サンプルと未知サンプル間のマージン距離を拡大するために、エネルギーベースの不確実性モデリング戦略を提案します。
広範な実験により、私たちが提案した方法の優位性が実証されました。
要約(オリジナル)
Universal Multi-source Domain Adaptation (UniMDA) transfers knowledge from multiple labeled source domains to an unlabeled target domain under domain shifts (different data distribution) and class shifts (unknown target classes). Existing solutions focus on excavating image features to detect unknown samples, ignoring abundant information contained in textual semantics. In this paper, we propose an Adaptive Prompt learning with Negative textual semantics and uncErtainty modeling method based on Contrastive Language-Image Pre-training (APNE-CLIP) for UniMDA classification tasks. Concretely, we utilize the CLIP with adaptive prompts to leverage textual information of class semantics and domain representations, helping the model identify unknown samples and address domain shifts. Additionally, we design a novel global instance-level alignment objective by utilizing negative textual semantics to achieve more precise image-text pair alignment. Furthermore, we propose an energy-based uncertainty modeling strategy to enlarge the margin distance between known and unknown samples. Extensive experiments demonstrate the superiority of our proposed method.
arxiv情報
著者 | Yuxiang Yang,Lu Wen,Yuanyuan Xu,Jiliu Zhou,Yan Wang |
発行日 | 2024-04-24 01:14:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google