Improving Source-Free Target Adaptation with Vision Transformers Leveraging Domain Representation Images

要約

教師なしドメイン適応 (UDA) 手法は、ラベル付きソース ドメインからラベルなしターゲット ドメインへの知識の伝達を容易にし、ドメイン シフトの障害を回避します。
畳み込みニューラル ネットワーク (CNN) は UDA の定番ですが、ビジョン トランスフォーマー (ViT) の台頭により、ドメインの一般化に新たな道が提供されています。
この論文では、キー、クエリ、および値の要素が ViT の結果にどのように影響するかを評価することから始めて、ソースフリーのターゲット適応において ViT のパフォーマンスを強化する革新的な方法を紹介します。
実験によると、主要コンポーネントの変更が Transformer のパフォーマンスに与える影響はごくわずかであることが示されています。
この発見を活用して、キー要素を通じて埋め込みをフィードするドメイン表現イメージ (DRI) を導入します。
DRI はドメイン固有のマーカーとして機能し、トレーニング計画と簡単に統合できます。
私たちの方法を評価するために、クロスインスタンス DRI ソースオンリー (SO) コントロールでターゲット適応テストを実行します。
DRI の有無にかかわらず、SHOT-B* や CDTrans による適応などの既存のベンチマークと比較して、ターゲット適応の有効性を測定します。
調査結果は、DRI を除外すると SHOT-B* に比べて得られる効果が限られている一方、キー セグメントに DRI を含めると平均精度が向上し、優れた領域一般化が促進されることを示しています。
この研究は、UDA シナリオにおける ViT 効率の向上における DRI の重要な役割を強調し、さらなるドメイン適応の探索の前例となります。

要約(オリジナル)

Unsupervised Domain Adaptation (UDA) methods facilitate knowledge transfer from a labeled source domain to an unlabeled target domain, navigating the obstacle of domain shift. While Convolutional Neural Networks (CNNs) are a staple in UDA, the rise of Vision Transformers (ViTs) provides new avenues for domain generalization. This paper presents an innovative method to bolster ViT performance in source-free target adaptation, beginning with an evaluation of how key, query, and value elements affect ViT outcomes. Experiments indicate that altering the key component has negligible effects on Transformer performance. Leveraging this discovery, we introduce Domain Representation Images (DRIs), feeding embeddings through the key element. DRIs act as domain-specific markers, effortlessly merging with the training regimen. To assess our method, we perform target adaptation tests on the Cross Instance DRI source-only (SO) control. We measure the efficacy of target adaptation with and without DRIs, against existing benchmarks like SHOT-B* and adaptations via CDTrans. Findings demonstrate that excluding DRIs offers limited gains over SHOT-B*, while their inclusion in the key segment boosts average precision promoting superior domain generalization. This research underscores the vital role of DRIs in enhancing ViT efficiency in UDA scenarios, setting a precedent for further domain adaptation explorations.

arxiv情報

著者 Gauransh Sawhney,Daksh Dave,Adeel Ahmed,Jiechao Gao,Khalid Saleem
発行日 2023-11-21 13:26:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク