DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding

要約

このホワイトペーパーでは、これまでの最高のオープンワールドオブジェクト検出パフォーマンスを備えたIdea Researchによって開発された統一されたオブジェクト中心のビジョンモデルであるDino-Xを紹介します。
Dino-Xは、Dino 1.5の接地と同じ変圧器ベースのエンコーダーデコーダーアーキテクチャを使用して、オープンワールドオブジェクトの理解のためのオブジェクトレベルの表現を追求しています。
ロングテールオブジェクトの検出を簡単にするために、Dino-Xは入力オプションを拡張して、テキストプロンプト、視覚的なプロンプト、およびカスタマイズされたプロンプトをサポートします。
このような柔軟なプロンプトオプションを使用して、プロンプトフリーのオープンワールド検出をサポートするユニバーサルオブジェクトプロンプトを開発し、ユーザーにプロンプ​​トを提供することなく画像内のものを検出できるようにします。
モデルのコア接地機能を強化するために、モデルのオープンポンシャル検出性能を進めるために、接地100mと呼ばれる1億を超える高品質の接地サンプルを備えた大規模なデータセットを構築しました。
このような大規模な接地データセットの事前トレーニングは、基本的なオブジェクトレベルの表現につながります。これにより、Dino-Xは複数のオブジェクト知覚ヘッドを統合して、検出、セグメンテーション、ポーズ推定、オブジェクトキャプション、オブジェクトベースのQAなどを含む複数のオブジェクト知覚と理解を同時にサポートできます。
具体的には、Dino-X Proモデルは、それぞれ56.0 AP、59.8 AP、および52.4 APをCOCO、LVIS-MINIVAL、およびLVIS-Valゼロショットオブジェクト検出ベンチマークで達成します。
特に、LVISミニバルとLVIS-Valのベンチマークのまれなクラスで63.3 APおよび56.5 APを獲得し、以前のSOTAパフォーマンスを5.8 APおよび5.0 APで改善します。
このような結果は、ロングテールされたオブジェクトを認識する能力が大幅に改善されたことを強調しています。

要約(オリジナル)

In this paper, we introduce DINO-X, which is a unified object-centric vision model developed by IDEA Research with the best open-world object detection performance to date. DINO-X employs the same Transformer-based encoder-decoder architecture as Grounding DINO 1.5 to pursue an object-level representation for open-world object understanding. To make long-tailed object detection easy, DINO-X extends its input options to support text prompt, visual prompt, and customized prompt. With such flexible prompt options, we develop a universal object prompt to support prompt-free open-world detection, making it possible to detect anything in an image without requiring users to provide any prompt. To enhance the model’s core grounding capability, we have constructed a large-scale dataset with over 100 million high-quality grounding samples, referred to as Grounding-100M, for advancing the model’s open-vocabulary detection performance. Pre-training on such a large-scale grounding dataset leads to a foundational object-level representation, which enables DINO-X to integrate multiple perception heads to simultaneously support multiple object perception and understanding tasks, including detection, segmentation, pose estimation, object captioning, object-based QA, etc. Experimental results demonstrate the superior performance of DINO-X. Specifically, the DINO-X Pro model achieves 56.0 AP, 59.8 AP, and 52.4 AP on the COCO, LVIS-minival, and LVIS-val zero-shot object detection benchmarks, respectively. Notably, it scores 63.3 AP and 56.5 AP on the rare classes of LVIS-minival and LVIS-val benchmarks, improving the previous SOTA performance by 5.8 AP and 5.0 AP. Such a result underscores its significantly improved capacity for recognizing long-tailed objects.

arxiv情報

著者 Tianhe Ren,Yihao Chen,Qing Jiang,Zhaoyang Zeng,Yuda Xiong,Wenlong Liu,Zhengyu Ma,Junyi Shen,Yuan Gao,Xiaoke Jiang,Xingyu Chen,Zhuheng Song,Yuhong Zhang,Hongjie Huang,Han Gao,Shilong Liu,Hao Zhang,Feng Li,Kent Yu,Lei Zhang
発行日 2025-05-15 15:52:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク