要約
本稿では、IDEA Research が開発したこれまでで最高のオープンワールド物体検出性能を備えた統合物体中心視覚モデルである DINO-X を紹介します。
DINO-X は、Grounding DINO 1.5 と同じ Transformer ベースのエンコーダ/デコーダ アーキテクチャを採用し、オープンワールドのオブジェクトを理解するためのオブジェクト レベルの表現を追求します。
長い尾を持つオブジェクトの検出を簡単にするために、DINO-X は入力オプションを拡張して、テキスト プロンプト、ビジュアル プロンプト、およびカスタマイズされたプロンプトをサポートします。
このような柔軟なプロンプト オプションを使用して、プロンプトのないオープンワールド検出をサポートするユニバーサル オブジェクト プロンプトを開発し、ユーザーがプロンプトを入力しなくても画像内のあらゆるものを検出できるようにします。
モデルの中核となるグラウンディング機能を強化するために、モデルのオープン語彙検出パフォーマンスを向上させるために、Grounding-100M と呼ばれる 1 億を超える高品質なグラウンディング サンプルを含む大規模なデータセットを構築しました。
このような大規模なグラウンディング データセットでの事前トレーニングにより、基本的なオブジェクト レベルの表現が得られます。これにより、DINO-X は複数の認識ヘッドを統合して、検出、セグメンテーション、姿勢推定、オブジェクト キャプションなど、複数のオブジェクトの認識および理解タスクを同時にサポートできるようになります。
、オブジェクトベースの QA など。実験結果は、DINO-X の優れたパフォーマンスを示しています。
具体的には、DINO-X Pro モデルは、COCO、LVIS-minival、および LVIS-val ゼロショット物体検出ベンチマークで、それぞれ 56.0 AP、59.8 AP、および 52.4 AP を達成しています。
特に、まれなクラスの LVIS-minival ベンチマークと LVIS-val ベンチマークで 63.3 AP と 56.5 AP のスコアを獲得しており、どちらも以前の SOTA パフォーマンスを 5.8 AP 改善しています。
このような結果は、尾の長い物体を認識する能力が大幅に向上していることを強調しています。
要約(オリジナル)
In this paper, we introduce DINO-X, which is a unified object-centric vision model developed by IDEA Research with the best open-world object detection performance to date. DINO-X employs the same Transformer-based encoder-decoder architecture as Grounding DINO 1.5 to pursue an object-level representation for open-world object understanding. To make long-tailed object detection easy, DINO-X extends its input options to support text prompt, visual prompt, and customized prompt. With such flexible prompt options, we develop a universal object prompt to support prompt-free open-world detection, making it possible to detect anything in an image without requiring users to provide any prompt. To enhance the model’s core grounding capability, we have constructed a large-scale dataset with over 100 million high-quality grounding samples, referred to as Grounding-100M, for advancing the model’s open-vocabulary detection performance. Pre-training on such a large-scale grounding dataset leads to a foundational object-level representation, which enables DINO-X to integrate multiple perception heads to simultaneously support multiple object perception and understanding tasks, including detection, segmentation, pose estimation, object captioning, object-based QA, etc. Experimental results demonstrate the superior performance of DINO-X. Specifically, the DINO-X Pro model achieves 56.0 AP, 59.8 AP, and 52.4 AP on the COCO, LVIS-minival, and LVIS-val zero-shot object detection benchmarks, respectively. Notably, it scores 63.3 AP and 56.5 AP on the rare classes of LVIS-minival and LVIS-val benchmarks, both improving the previous SOTA performance by 5.8 AP. Such a result underscores its significantly improved capacity for recognizing long-tailed objects.
arxiv情報
著者 | Tianhe Ren,Yihao Chen,Qing Jiang,Zhaoyang Zeng,Yuda Xiong,Wenlong Liu,Zhengyu Ma,Junyi Shen,Yuan Gao,Xiaoke Jiang,Xingyu Chen,Zhuheng Song,Yuhong Zhang,Hongjie Huang,Han Gao,Shilong Liu,Hao Zhang,Feng Li,Kent Yu,Lei Zhang |
発行日 | 2024-11-21 17:42:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google