要約
本稿では、クロスドメイン・フライショットオブジェクト検出(CD-FSOD)の課題に取り組み、最小限のラベル付き例で新規ドメインの高精度オブジェクト検出器を開発することを目指す。変換器ベースのオープンセット検出器、例えばDE-ViT~cite{zhang2023detect}は、オープンボキャブラリーオブジェクト検出と伝統的な少数ショットオブジェクト検出の両方に優れており、学習中に見た以上のカテゴリを検出しているが、我々は当然2つの重要な問題を提起する:1)このようなオープンセット検出手法はCD-FSODに容易に一般化できるか?2)もしそうでない場合、有意なドメインギャップに直面したときに、どのようにオープンセット法の結果を向上させるか?最初の問いに対処するために、我々はドメインのばらつきを定量化するためのいくつかのメトリクスを導入し、多様なドメインメトリクスの値を持つ新しいCD-FSODベンチマークを確立する。このベンチマークを用いて、いくつかのオープンセット物体検出法を評価したところ、領域外のデータセットにおいて明らかな性能劣化が観測された。これはCD-FSODにオープンセット検出器を直接採用することの失敗を示している。続いて、性能劣化の問題を克服し、2つ目の提案された質問に答えるために、我々はバニラDE-ViTを強化することに努める。ファインチューニング、学習可能なプロトタイプモジュール、軽量なアテンションモジュールを含むいくつかの新しいコンポーネントにより、CD-FSODのための改良型クロスドメインビジョントランスフォーマー(CD-ViTO)を提案する。実験によれば、我々のCD-ViTOは、領域外と領域内のターゲットデータセットの両方で印象的な結果を達成し、CD-FSODとFSODの両方で新しいSOTAを確立した。すべてのデータセット、コード、モデルはコミュニティに公開される。
要約(オリジナル)
This paper addresses the challenge of cross-domain few-shot object detection (CD-FSOD), aiming to develop an accurate object detector for novel domains with minimal labeled examples. While transformer-based open-set detectors e.g., DE-ViT~\cite{zhang2023detect} have excelled in both open-vocabulary object detection and traditional few-shot object detection, detecting categories beyond those seen during training, we thus naturally raise two key questions: 1) can such open-set detection methods easily generalize to CD-FSOD? 2) If no, how to enhance the results of open-set methods when faced with significant domain gaps? To address the first question, we introduce several metrics to quantify domain variances and establish a new CD-FSOD benchmark with diverse domain metric values. Some State-Of-The-Art (SOTA) open-set object detection methods are evaluated on this benchmark, with evident performance degradation observed across out-of-domain datasets. This indicates the failure of adopting open-set detectors directly for CD-FSOD. Sequentially, to overcome the performance degradation issue and also to answer the second proposed question, we endeavor to enhance the vanilla DE-ViT. With several novel components including finetuning, a learnable prototype module, and a lightweight attention module, we present an improved Cross-Domain Vision Transformer for CD-FSOD (CD-ViTO). Experiments show that our CD-ViTO achieves impressive results on both out-of-domain and in-domain target datasets, establishing new SOTAs for both CD-FSOD and FSOD. All the datasets, codes, and models will be released to the community.
arxiv情報
著者 | Yuqian Fu,Yu Wang,Yixuan Pan,Lian Huai,Xingyu Qiu,Zeyu Shangguan,Tong Liu,Lingjie Kong,Yanwei Fu,Luc Van Gool,Xingqun Jiang |
発行日 | 2024-02-05 15:25:32+00:00 |
arxivサイト | arxiv_id(pdf) |