要約
このペーパーでは、IDEA Research が開発した一連の高度なオープンセット オブジェクト検出モデルである Grounding DINO 1.5 について紹介します。これは、オープンセット オブジェクト検出の「エッジ」を進化させることを目的としています。
このスイートには 2 つのモデルが含まれています。Grounding DINO 1.5 Pro は、幅広いシナリオにわたってより強力な汎用化機能を実現するように設計された高性能モデルで、もう 1 つは、エッジ展開を必要とする多くのアプリケーションで要求される高速化に最適化された効率的なモデルである Grounding DINO 1.5 Edge です。
Grounding DINO 1.5 Pro モデルは、モデル アーキテクチャをスケールアップし、強化されたビジョン バックボーンを統合し、トレーニング データセットをグラウンディング アノテーション付きの 2,000 万以上の画像に拡張することで、前モデルを進化させ、それによってより豊かな意味的理解を実現します。
Grounding DINO 1.5 Edge モデルは、特徴スケールを削減して効率を高めるように設計されていますが、同じ包括的なデータセットでトレーニングされることで堅牢な検出機能を維持します。
実験結果は、Grounding DINO 1.5 の有効性を実証しており、Grounding DINO 1.5 Pro モデルは COCO 検出ベンチマークで 54.3 AP、LVIS-minival ゼロショット転送ベンチマークで 55.7 AP を達成し、オープンセット物体検出の新記録を樹立しました。
。
さらに、Grounding DINO 1.5 エッジ モデルは、TensorRT で最適化すると、LVIS-minival ベンチマークで 36.2 AP のゼロショット パフォーマンスを達成しながら、75.2 FPS の速度を達成し、エッジ コンピューティング シナリオにより適したものになります。
API を使用したモデルのサンプルとデモは https://github.com/IDEA-Research/Grounding-DINO-1.5-API でリリースされます。
要約(オリジナル)
This paper introduces Grounding DINO 1.5, a suite of advanced open-set object detection models developed by IDEA Research, which aims to advance the ‘Edge’ of open-set object detection. The suite encompasses two models: Grounding DINO 1.5 Pro, a high-performance model designed for stronger generalization capability across a wide range of scenarios, and Grounding DINO 1.5 Edge, an efficient model optimized for faster speed demanded in many applications requiring edge deployment. The Grounding DINO 1.5 Pro model advances its predecessor by scaling up the model architecture, integrating an enhanced vision backbone, and expanding the training dataset to over 20 million images with grounding annotations, thereby achieving a richer semantic understanding. The Grounding DINO 1.5 Edge model, while designed for efficiency with reduced feature scales, maintains robust detection capabilities by being trained on the same comprehensive dataset. Empirical results demonstrate the effectiveness of Grounding DINO 1.5, with the Grounding DINO 1.5 Pro model attaining a 54.3 AP on the COCO detection benchmark and a 55.7 AP on the LVIS-minival zero-shot transfer benchmark, setting new records for open-set object detection. Furthermore, the Grounding DINO 1.5 Edge model, when optimized with TensorRT, achieves a speed of 75.2 FPS while attaining a zero-shot performance of 36.2 AP on the LVIS-minival benchmark, making it more suitable for edge computing scenarios. Model examples and demos with API will be released at https://github.com/IDEA-Research/Grounding-DINO-1.5-API
arxiv情報
著者 | Tianhe Ren,Qing Jiang,Shilong Liu,Zhaoyang Zeng,Wenlong Liu,Han Gao,Hongjie Huang,Zhengyu Ma,Xiaoke Jiang,Yihao Chen,Yuda Xiong,Hao Zhang,Feng Li,Peijun Tang,Kent Yu,Lei Zhang |
発行日 | 2024-05-16 17:54:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google