Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection

要約

この論文では、Transformer ベースの検出器 DINO を接地された事前トレーニングと組み合わせることにより、Grounding DINO と呼ばれるオープンセットのオブジェクト検出器を提示します。これは、カテゴリ名や参照表現などの人間の入力で任意のオブジェクトを検出できます。
開集合オブジェクト検出の重要な解決策は、開集合概念の一般化のために閉集合検出器に言語を導入することです。
言語と視覚モダリティを効果的に融合するために、クローズド セット検出器を概念的に 3 つのフェーズに分割し、機能エンハンサー、言語ガイド付きクエリ選択、クロスモダリティ融合のためのクロスモダリティ デコーダーを含むタイト フュージョン ソリューションを提案します。
.
これまでの研究では、主に新しいカテゴリに対する開集合のオブジェクト検出を評価していましたが、属性で指定されたオブジェクトの参照表現理解についても評価を行うことを提案します。
グラウンディング DINO は、COCO、LVIS、ODinW、および RefCOCO/+/g のベンチマークを含む 3 つの設定すべてで非常に優れたパフォーマンスを発揮します。
グラウンディング DINO は、COCO 検出ゼロ ショット転送ベンチマークで $52.5$ AP を達成します。つまり、COCO からのトレーニング データはありません。
平均 26.1 ドルの AP で、ODinW ゼロ ショット ベンチマークの新記録を打ち立てました。
コードは \url{https://github.com/IDEA-Research/GroundingDINO} で入手できます。

要約(オリジナル)

In this paper, we present an open-set object detector, called Grounding DINO, by marrying Transformer-based detector DINO with grounded pre-training, which can detect arbitrary objects with human inputs such as category names or referring expressions. The key solution of open-set object detection is introducing language to a closed-set detector for open-set concept generalization. To effectively fuse language and vision modalities, we conceptually divide a closed-set detector into three phases and propose a tight fusion solution, which includes a feature enhancer, a language-guided query selection, and a cross-modality decoder for cross-modality fusion. While previous works mainly evaluate open-set object detection on novel categories, we propose to also perform evaluations on referring expression comprehension for objects specified with attributes. Grounding DINO performs remarkably well on all three settings, including benchmarks on COCO, LVIS, ODinW, and RefCOCO/+/g. Grounding DINO achieves a $52.5$ AP on the COCO detection zero-shot transfer benchmark, i.e., without any training data from COCO. It sets a new record on the ODinW zero-shot benchmark with a mean $26.1$ AP. Code will be available at \url{https://github.com/IDEA-Research/GroundingDINO}.

arxiv情報

著者 Shilong Liu,Zhaoyang Zeng,Tianhe Ren,Feng Li,Hao Zhang,Jie Yang,Chunyuan Li,Jianwei Yang,Hang Su,Jun Zhu,Lei Zhang
発行日 2023-03-10 06:37:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク