Split to Merge: Unifying Separated Modalities for Unsupervised Domain Adaptation

要約

CLIP のような大規模ビジョン言語モデル (VLM) は、教師なしドメイン適応タスクにおいて優れたゼロショット学習パフォーマンスを実証しています。
しかし、VLM のほとんどの転送アプローチは、言語または視覚的なブランチのいずれかに焦点を当てており、両方のモダリティ間の微妙な相互作用を無視しています。
この研究では、教師なしドメイン適応のための Unified Modality Separation (UniMoS) フレームワークを導入します。
モダリティ ギャップ研究からの洞察を活用して、CLIP の機能を言語関連コンポーネントと視覚関連コンポーネントに明確に分解する、機敏なモダリティ分離ネットワークを構築します。
私たちが提案するモダリティ アンサンブル トレーニング (MET) 方法は、モダリティ固有のニュアンスを維持しながら、モダリティに依存しない情報の交換を促進します。
モダリティ識別子を使用して、ドメイン全体で特徴を調整します。
3 つのベンチマークに関する包括的な評価により、私たちのアプローチが最小限の計算コストで新しい最先端を確立していることが明らかになりました。
コード: https://github.com/TL-UESC/UniMoS

要約(オリジナル)

Large vision-language models (VLMs) like CLIP have demonstrated good zero-shot learning performance in the unsupervised domain adaptation task. Yet, most transfer approaches for VLMs focus on either the language or visual branches, overlooking the nuanced interplay between both modalities. In this work, we introduce a Unified Modality Separation (UniMoS) framework for unsupervised domain adaptation. Leveraging insights from modality gap studies, we craft a nimble modality separation network that distinctly disentangles CLIP’s features into language-associated and vision-associated components. Our proposed Modality-Ensemble Training (MET) method fosters the exchange of modality-agnostic information while maintaining modality-specific nuances. We align features across domains using a modality discriminator. Comprehensive evaluations on three benchmarks reveal our approach sets a new state-of-the-art with minimal computational costs. Code: https://github.com/TL-UESTC/UniMoS

arxiv情報

著者 Xinyao Li,Yuke Li,Zhekai Du,Fengling Li,Ke Lu,Jingjing Li
発行日 2024-03-11 17:33:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク