Generalized Diffusion Detector: Mining Robust Features from Diffusion Models for Domain-Generalized Detection

要約

オブジェクト検出のドメイン一般化(DG)は、目に見えないシナリオでの検出器のパフォーマンスを向上させることを目的としています。
このタスクは、実際のアプリケーションの複雑な変動のために依然として困難です。
最近、拡散モデルは、多様なシーン生成において顕著な能力を実証しており、DGタスクを改善する可能性を探求するように促しています。
画像を生成する代わりに、拡散プロセス中にマルチステップ中間特徴を抽出して、一般化された検出のためのドメイン不変機能を取得します。
さらに、検出器が推論時間を増やすことなく、特徴とオブジェクトレベルのアライメントを通じて拡散モデルの一般化能力を継承できるようにする効率的な知識伝達フレームワークを提案します。
6つの挑戦的なDGベンチマークで広範な実験を行います。
結果は、私たちの方法が、異なるドメインと腐敗タイプにわたる既存のDGアプローチよりも14.0%のマップの大幅な改善を達成することを示しています。
特に、この方法は、ターゲットドメインデータにアクセスすることなく、ほとんどのドメイン適応方法よりも優れています。
さらに、拡散誘導検出器は、ベースラインと比較して平均して15.9%マップの一貫した改善を示しています。
私たちの仕事の目的は、ドメインジェネラル化検出のための効果的なアプローチを提示し、実際のシナリオで堅牢な視覚認識の潜在的な洞察を提供することです。
このコードは、https://github.com/heboyong/generalized-diffusion-detectorで入手できます。

要約(オリジナル)

Domain generalization (DG) for object detection aims to enhance detectors’ performance in unseen scenarios. This task remains challenging due to complex variations in real-world applications. Recently, diffusion models have demonstrated remarkable capabilities in diverse scene generation, which inspires us to explore their potential for improving DG tasks. Instead of generating images, our method extracts multi-step intermediate features during the diffusion process to obtain domain-invariant features for generalized detection. Furthermore, we propose an efficient knowledge transfer framework that enables detectors to inherit the generalization capabilities of diffusion models through feature and object-level alignment, without increasing inference time. We conduct extensive experiments on six challenging DG benchmarks. The results demonstrate that our method achieves substantial improvements of 14.0% mAP over existing DG approaches across different domains and corruption types. Notably, our method even outperforms most domain adaptation methods without accessing any target domain data. Moreover, the diffusion-guided detectors show consistent improvements of 15.9% mAP on average compared to the baseline. Our work aims to present an effective approach for domain-generalized detection and provide potential insights for robust visual recognition in real-world scenarios. The code is available at https://github.com/heboyong/Generalized-Diffusion-Detector.

arxiv情報

著者 Boyong He,Yuxiang Ji,Qianwen Ye,Zhuoyue Tan,Liaoni Wu
発行日 2025-06-04 16:55:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク