Diffusion Domain Teacher: Diffusion Guided Domain Adaptive Object Detector

要約

物体検出器は、学習データ(ソースドメイン)と実世界データ(ターゲットドメイン)のドメインギャップが大きいため、しばしば性能低下に悩まされる。拡散に基づく生成モデルは、高品質で多様な画像を生成する顕著な能力を示しており、様々なドメインから価値ある特徴を抽出する可能性を示唆している。本論文では、拡散モデルのクロスドメイン特徴表現を効果的に活用するために、ソースドメイン上で凍結重み拡散モデルを用いて検出器を学習し、ラベル付けされていないターゲットドメイン上で擬似ラベルを生成する教師モデルとして採用する。このアプローチを拡散ドメイン教師(Diffusion Domain Teacher: DDT)と呼ぶ。この簡単かつ強力なフレームワークを採用することで、推論速度を損なうことなく、領域横断的な物体検出性能を大幅に向上させる。我々の手法は、3つの一般的なクロスドメイン検出ベンチマーク(Cross-Camera, Syn2Real, Real2Artistic}の6つのデータセットにおいて、ベースラインと比較して平均21.2%のmAP改善を達成し、現在の最先端(SOTA)手法を平均5.7%のmAPで上回る。さらに、広範な実験により、我々の手法が、より強力で複雑なモデルにおいても一貫して改善をもたらすことが実証され、我々のDDTの広く適用可能で効果的なドメイン適応能力が強調された。コードはhttps://github.com/heboyong/Diffusion-Domain-Teacher。

要約(オリジナル)

Object detectors often suffer a decrease in performance due to the large domain gap between the training data (source domain) and real-world data (target domain). Diffusion-based generative models have shown remarkable abilities in generating high-quality and diverse images, suggesting their potential for extracting valuable feature from various domains. To effectively leverage the cross-domain feature representation of diffusion models, in this paper, we train a detector with frozen-weight diffusion model on the source domain, then employ it as a teacher model to generate pseudo labels on the unlabeled target domain, which are used to guide the supervised learning of the student model on the target domain. We refer to this approach as Diffusion Domain Teacher (DDT). By employing this straightforward yet potent framework, we significantly improve cross-domain object detection performance without compromising the inference speed. Our method achieves an average mAP improvement of 21.2% compared to the baseline on 6 datasets from three common cross-domain detection benchmarks (Cross-Camera, Syn2Real, Real2Artistic}, surpassing the current state-of-the-art (SOTA) methods by an average of 5.7% mAP. Furthermore, extensive experiments demonstrate that our method consistently brings improvements even in more powerful and complex models, highlighting broadly applicable and effective domain adaptation capability of our DDT. The code is available at https://github.com/heboyong/Diffusion-Domain-Teacher.

arxiv情報

著者 Boyong He,Yuxiang Ji,Zhuoyue Tan,Liaoni Wu
発行日 2025-06-04 17:56:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク