LanDA: Language-Guided Multi-Source Domain Adaptation

要約

マルチソース ドメイン アダプテーション (MSDA) は、複数のラベル付きソース ドメインからラベルのないターゲット ドメインに知識を転送する際のデータ分散の変化を軽減することを目的としています。
しかし、既存の MSDA 技術は、ターゲット ドメインの画像が利用可能であることを前提としていますが、画像が豊富な意味論的な情報は見逃しています。
したがって、未解決の問題は、ターゲット ドメインの画像がない場合に、MSDA をテキストの手がかりのみによってガイドできるかどうかです。
画像と言語の統合埋め込み空間を備えたマルチモーダル モデルを採用することで、最適転送理論に基づいた、LanDA と呼ばれる新しい言語ガイド型 MSDA アプローチを提案します。これにより、複数のソース ドメインから新しいターゲット ドメインへの転送が容易になります。
タスク関連の情報を保持しながら、ターゲット ドメインのイメージを 1 つも必要とせずに、ターゲット ドメインのテキストによる説明を実現します。
関連する一連のベンチマークを使用したさまざまな転送シナリオにわたる広範な実験を示し、LanDA がターゲット ドメインとソース ドメインの両方で標準的な微調整およびアンサンブル アプローチよりも優れていることを実証します。

要約(オリジナル)

Multi-Source Domain Adaptation (MSDA) aims to mitigate changes in data distribution when transferring knowledge from multiple labeled source domains to an unlabeled target domain. However, existing MSDA techniques assume target domain images are available, yet overlook image-rich semantic information. Consequently, an open question is whether MSDA can be guided solely by textual cues in the absence of target domain images. By employing a multimodal model with a joint image and language embedding space, we propose a novel language-guided MSDA approach, termed LanDA, based on optimal transfer theory, which facilitates the transfer of multiple source domains to a new target domain, requiring only a textual description of the target domain without needing even a single target domain image, while retaining task-relevant information. We present extensive experiments across different transfer scenarios using a suite of relevant benchmarks, demonstrating that LanDA outperforms standard fine-tuning and ensemble approaches in both target and source domains.

arxiv情報

著者 Zhenbin Wang,Lei Zhang,Lituan Wang,Minjuan Zhu
発行日 2024-01-25 12:55:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク