要約
最近、広範囲の下流タスクで大規模な事前トレーニング済み視覚言語モデル (VLM) が前例のない成功を収めたにもかかわらず、現実世界の教師なしドメイン適応 (UDA) 問題はまだ十分に調査されていません。
したがって、この論文では、まず、教師なしトレーニング VLM がソース ドメインとターゲット ドメイン間の分散の不一致を大幅に削減し、それによって UDA のパフォーマンスが向上することを実験的に実証します。
ただし、このようなモデルを下流の UDA タスクに直接デプロイする場合の大きな課題は、迅速なエンジニアリングです。UDA のパフォーマンスは、優れたドメイン不変表現によって大きく影響されるため、ソース ドメインとターゲット ドメインのドメイン知識を調整する必要があります。
さらに、ドメイン知識をプロンプト学習に組み込むためのプロンプトベースの分布調整 (PDA) 方法を提案します。
具体的には、PDA は、ベース ブランチとアラインメント ブランチという 2 つのブランチのプロンプト チューニング パラダイムを採用しています。
基本ブランチは、クラス関連の表現をプロンプトに統合し、異なるクラス間の区別を確保することに重点を置いています。
ドメインの不一致をさらに最小限に抑えるために、アラインメント ブランチでは、ソース ドメインとターゲット ドメインの両方の特徴バンクを構築し、入力を特徴バンクに対応させる画像誘導特徴チューニング (IFT) を提案します。これにより、自己拡張と相互拡張が効果的に統合されます。
ドメインの特徴をモデルに組み込みます。
このようにして、これら 2 つのブランチを相互に促進して、UDA に対する VLM の適応を強化できます。
私たちは、提案した PDA が最先端のパフォーマンスを達成していることを実証するために、3 つのベンチマークで広範な実験を実施しました。
コードは https://github.com/BaiShuanghao/Prompt-based-Distribution-Alignment で入手できます。
要約(オリジナル)
Recently, despite the unprecedented success of large pre-trained visual-language models (VLMs) on a wide range of downstream tasks, the real-world unsupervised domain adaptation (UDA) problem is still not well explored. Therefore, in this paper, we first experimentally demonstrate that the unsupervised-trained VLMs can significantly reduce the distribution discrepancy between source and target domains, thereby improving the performance of UDA. However, a major challenge for directly deploying such models on downstream UDA tasks is prompt engineering, which requires aligning the domain knowledge of source and target domains, since the performance of UDA is severely influenced by a good domain-invariant representation. We further propose a Prompt-based Distribution Alignment (PDA) method to incorporate the domain knowledge into prompt learning. Specifically, PDA employs a two-branch prompt-tuning paradigm, namely base branch and alignment branch. The base branch focuses on integrating class-related representation into prompts, ensuring discrimination among different classes. To further minimize domain discrepancy, for the alignment branch, we construct feature banks for both the source and target domains and propose image-guided feature tuning (IFT) to make the input attend to feature banks, which effectively integrates self-enhanced and cross-domain features into the model. In this way, these two branches can be mutually promoted to enhance the adaptation of VLMs for UDA. We conduct extensive experiments on three benchmarks to demonstrate that our proposed PDA achieves state-of-the-art performance. The code is available at https://github.com/BaiShuanghao/Prompt-based-Distribution-Alignment.
arxiv情報
著者 | Shuanghao Bai,Min Zhang,Wanqi Zhou,Siteng Huang,Zhirong Luan,Donglin Wang,Badong Chen |
発行日 | 2024-01-26 16:31:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google