An Open and Comprehensive Pipeline for Unified Object Grounding and Detection

要約

Grounding-DINOは、Open-Vocabulary Detection (OVD)、Phrase Grounding (PG)、Referring Expression Comprehension (REC)を含む複数の視覚タスクに取り組む最先端のオープンセット検出モデルである。その有効性から、様々な下流アプリケーションの主流アーキテクチャとして広く採用されている。しかし、その重要性にもかかわらず、オリジナルのGrounding-DINOモデルは、その学習コードが利用できないため、包括的な公開技術詳細が不足している。このギャップを埋めるために、我々はMM-Grounding-DINOを発表する。MM-Grounding-DINOは、オープンソースで、包括的で、ユーザーフレンドリーなベースラインであり、MMDetectionツールボックスで構築されている。このベースラインは、事前学習のために豊富なビジョンデータセットを採用し、微調整のために様々な検出とグラウンディングのデータセットを採用している。報告された各結果の包括的な分析と、再現のための詳細な設定を与える。ベンチマークを用いた広範な実験により、我々のMM-Grounding-DINO-TinyがGrounding-DINO-Tinyベースラインを上回ることが実証された。我々は全てのモデルを研究コミュニティに公開しています。コードと学習済みモデルはhttps://github.com/open-mmlab/mmdetection/configs/mm_grounding_dino。

要約(オリジナル)

Grounding-DINO is a state-of-the-art open-set detection model that tackles multiple vision tasks including Open-Vocabulary Detection (OVD), Phrase Grounding (PG), and Referring Expression Comprehension (REC). Its effectiveness has led to its widespread adoption as a mainstream architecture for various downstream applications. However, despite its significance, the original Grounding-DINO model lacks comprehensive public technical details due to the unavailability of its training code. To bridge this gap, we present MM-Grounding-DINO, an open-source, comprehensive, and user-friendly baseline, which is built with the MMDetection toolbox. It adopts abundant vision datasets for pre-training and various detection and grounding datasets for fine-tuning. We give a comprehensive analysis of each reported result and detailed settings for reproduction. The extensive experiments on the benchmarks mentioned demonstrate that our MM-Grounding-DINO-Tiny outperforms the Grounding-DINO-Tiny baseline. We release all our models to the research community. Codes and trained models are released at https://github.com/open-mmlab/mmdetection/configs/mm_grounding_dino.

arxiv情報

著者 Xiangyu Zhao,Yicheng Chen,Shilin Xu,Xiangtai Li,Xinjiang Wang,Yining Li,Haian Huang
発行日 2024-01-04 17:00:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク