要約
視覚オブジェクト検出器を操作上のターゲット ドメインに適応させるのは困難な作業であり、通常は教師なしドメイン適応 (UDA) 手法を使用して達成されます。
最近の研究では、ラベル付きデータセットが複数のソース ドメインに由来する場合、それらを個別のドメインとして扱い、マルチソース ドメイン アダプテーション (MSDA) を実行すると、これらのソース ドメインをブレンドして UDA を実行するよりも精度と堅牢性が向上することが示されています。
適応のために、既存の MSDA メソッドは、ドメイン不変パラメータとドメイン固有パラメータを (ソース ドメインごとに) 学習します。
ただし、単一ソースの UDA 手法とは異なり、ドメイン固有のパラメーターを学習すると、ソース ドメインの数に比例してパラメータが大幅に増加します。
この論文では、ドメイン固有のサブネットの代わりにクラス プロトタイプを使用してドメイン固有の情報をエンコードする、プロトタイプベースの平均教師 (PMT) と呼ばれる新しい MSDA メソッドを提案します。
これらのプロトタイプは、対照的な損失を使用して学習され、ドメイン間で同じカテゴリを整列させ、異なるカテゴリを遠くに分離します。
プロトタイプの使用を考慮すると、PMT メソッドに必要なパラメーターの数はソース ドメインの数に応じて大幅に増加しないため、メモリの問題やオーバーフィッティングの可能性が軽減されます。
実証研究によると、PMT はいくつかの困難な物体検出データセットにおいて最先端の MSDA 手法よりも優れたパフォーマンスを発揮します。
私たちのコードは https://github.com/imatif17/Prototype-Mean-Teacher で入手できます。
要約(オリジナル)
Adapting visual object detectors to operational target domains is a challenging task, commonly achieved using unsupervised domain adaptation (UDA) methods. Recent studies have shown that when the labeled dataset comes from multiple source domains, treating them as separate domains and performing a multi-source domain adaptation (MSDA) improves the accuracy and robustness over blending these source domains and performing a UDA. For adaptation, existing MSDA methods learn domain-invariant and domain-specific parameters (for each source domain). However, unlike single-source UDA methods, learning domain-specific parameters makes them grow significantly in proportion to the number of source domains. This paper proposes a novel MSDA method called Prototype-based Mean Teacher (PMT), which uses class prototypes instead of domain-specific subnets to encode domain-specific information. These prototypes are learned using a contrastive loss, aligning the same categories across domains and separating different categories far apart. Given the use of prototypes, the number of parameters required for our PMT method does not increase significantly with the number of source domains, thus reducing memory issues and possible overfitting. Empirical studies indicate that PMT outperforms state-of-the-art MSDA methods on several challenging object detection datasets. Our code is available at https://github.com/imatif17/Prototype-Mean-Teacher.
arxiv情報
著者 | Atif Belal,Akhil Meethal,Francisco Perdigon Romero,Marco Pedersoli,Eric Granger |
発行日 | 2024-07-31 20:04:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google