Multimodal Unsupervised Domain Generalization by Retrieving Across the Modality Gap

要約

ドメイン一般化(DG)は、共有ラベルスペースの仮定の下で、1つ以上のソースドメインを活用する目に見えないテストドメインに一般化するモデルを学習する重要な問題です。
ただし、ほとんどのDGメソッドは、ターゲットラベルスペースの豊富なソースデータへのアクセスを想定しています。これは、ターゲットタスクと同じラベルスペースを取得することが法外に高価である多くの現実世界アプリケーションで過度に厳しいことを証明する要件です。
この設定では、監視されていないドメイン一般化(MUDG)問題のマルチモーダルバージョンに取り組みます。
私たちのフレームワークでは、ソースデータセットとターゲットタスクの間の関係を明示的に想定していません。
代わりに、ソースデータセットを共同ビジョン言語空間で正確かつ効率的に検索できるという前提にのみ依存しています。
Mudgの設定で3つの貢献をします。
第一に、テキストクエリと粗い量子化に使用される画像重心との間の距離が大きいため、クロスモーダルの近隣の近隣検索が低いリコールに苦しむことを理論的に示します。
したがって、ペア付きK-Meansを提案します。これは、画像スペースの代わりにCentroidをクエリスペースに保存することで最近隣接するリコールを改善する単純なクラスタリングアルゴリズムです。
第二に、ゼロショットの精度を向上させ、取得した画像データを多様化するように設計されたターゲットラベルの適応テキスト増強スキームを提案します。
最後に、下流の目標精度をさらに向上させるために、2つの単純だが効果的なコンポーネントを提示します。
それぞれのベンチマークで最先端の名前のみの転送、ソースフリーのDG、ゼロショット(ZS)メソッドと比較し、20の多様なデータセットで精度が一貫した改善を示します。
コードは利用可能です:https://github.com/chris210634/mudg

要約(オリジナル)

Domain generalization (DG) is an important problem that learns a model which generalizes to unseen test domains leveraging one or more source domains, under the assumption of shared label spaces. However, most DG methods assume access to abundant source data in the target label space, a requirement that proves overly stringent for numerous real-world applications, where acquiring the same label space as the target task is prohibitively expensive. For this setting, we tackle the multimodal version of the unsupervised domain generalization (MUDG) problem, which uses a large task-agnostic unlabeled source dataset during finetuning. Our framework does not explicitly assume any relationship between the source dataset and target task. Instead, it relies only on the premise that the source dataset can be accurately and efficiently searched in a joint vision-language space. We make three contributions in the MUDG setting. Firstly, we show theoretically that cross-modal approximate nearest neighbor search suffers from low recall due to the large distance between text queries and the image centroids used for coarse quantization. Accordingly, we propose paired k-means, a simple clustering algorithm that improves nearest neighbor recall by storing centroids in query space instead of image space. Secondly, we propose an adaptive text augmentation scheme for target labels designed to improve zero-shot accuracy and diversify retrieved image data. Lastly, we present two simple but effective components to further improve downstream target accuracy. We compare against state-of-the-art name-only transfer, source-free DG and zero-shot (ZS) methods on their respective benchmarks and show consistent improvement in accuracy on 20 diverse datasets. Code is available: https://github.com/Chris210634/mudg

arxiv情報

著者 Christopher Liao,Christian So,Theodoros Tsiligkaridis,Brian Kulis
発行日 2025-06-10 15:51:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク