要約
この論文では、最小限のラベル付きサンプルで新しいドメイン向けの正確な物体検出器を開発することを目的として、挑戦的なクロスドメイン少数ショット物体検出 (CD-FSOD) を研究します。
DE-ViT などのトランスベースのオープンセット検出器は、従来の少数ショットの物体検出では有望ですが、CD-FSOD への一般化は依然として不明です。1) このようなオープンセット検出方法は、CD-FSOD に簡単に一般化できますか?
2) そうでない場合、巨大なドメインギャップに直面したときにモデルをどのように強化できるでしょうか?
最初の質問に答えるために、スタイル、クラス間分散 (ICV)、定義不能境界 (IB) などの尺度を使用してドメイン ギャップを理解します。
これらの尺度に基づいて、物体検出方法を評価するための CD-FSOD という新しいベンチマークを確立し、現在のアプローチのほとんどがドメイン間で一般化できないことを明らかにしました。
技術的には、パフォーマンスの低下は、私たちが提案する対策であるスタイル、ICV、IB に関連していることがわかります。
したがって、これらの問題に対処するために、いくつかの新しいモジュールを提案します。
まず、学習可能なインスタンスの特徴は、初期の固定インスタンスをターゲット カテゴリに合わせて調整し、特徴の独自性を高めます。
次に、インスタンス再重み付けモジュールは、IB がわずかな高品質インスタンスにより高い重要性を割り当てます。
第三に、ドメイン プロンプターは、セマンティック コンテンツを変更せずに架空のドメインを合成することで、さまざまなスタイルに耐性のある機能を促進します。
これらの技術は集合的に、CD-FSOD 用クロスドメイン ビジョン トランスフォーマー (CD-ViTO) の開発に貢献し、ベースの DE-ViT を大幅に改善します。
実験結果により、モデルの有効性が検証されました。
すべてのデータセット、コード、モデルはコミュニティにリリースされます。
要約(オリジナル)
This paper studies the challenging cross-domain few-shot object detection (CD-FSOD), aiming to develop an accurate object detector for novel domains with minimal labeled examples. While transformer-based open-set detectors, such as DE-ViT, show promise in traditional few-shot object detection, their generalization to CD-FSOD remains unclear: 1) can such open-set detection methods easily generalize to CD-FSOD? 2) If not, how can models be enhanced when facing huge domain gaps? To answer the first question, we employ measures including style, inter-class variance (ICV), and indefinable boundaries (IB) to understand the domain gap. Based on these measures, we establish a new benchmark named CD-FSOD to evaluate object detection methods, revealing that most of the current approaches fail to generalize across domains. Technically, we observe that the performance decline is associated with our proposed measures: style, ICV, and IB. Consequently, we propose several novel modules to address these issues. First, the learnable instance features align initial fixed instances with target categories, enhancing feature distinctiveness. Second, the instance reweighting module assigns higher importance to high-quality instances with slight IB. Third, the domain prompter encourages features resilient to different styles by synthesizing imaginary domains without altering semantic contents. These techniques collectively contribute to the development of the Cross-Domain Vision Transformer for CD-FSOD (CD-ViTO), significantly improving upon the base DE-ViT. Experimental results validate the efficacy of our model. All datasets, codes, and models will be released to the community.
arxiv情報
著者 | Yuqian Fu,Yu Wang,Yixuan Pan,Lian Huai,Xingyu Qiu,Zeyu Shangguan,Tong Liu,Yanwei Fu,Luc Van Gool,Xingqun Jiang |
発行日 | 2024-03-19 16:34:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google