Real-time Transformer-based Open-Vocabulary Detection with Efficient Fusion Head

要約

エンドツーエンドのトランスフォーマーベースの検出器 (DETR) は、言語モダリティの統合を通じて、閉集合タスクとオープン語彙オブジェクト検出 (OVD) タスクの両方で優れたパフォーマンスを示しました。
ただし、計算要件が厳しいため、リアルタイムの物体検出 (OD) シナリオでの実際の適用が妨げられています。
このペーパーでは、OVDEval ベンチマークの 2 つの主要モデル、OmDet と Grounding-DINO の制限を詳しく調べ、OmDet-Turbo を紹介します。
この新しいトランスベースのリアルタイム OVD モデルは、OmDet および Grounding-DINO で観察されたボトルネックを軽減するように設計された革新的な Efficient Fusion Head (EFH) モジュールを備えています。
特に、OmDet-Turbo-Base は、TensorRT と言語キャッシュ技術を適用することで 100.2 フレーム/秒 (FPS) を達成します。
特に、COCO および LVIS データセットのゼロショット シナリオでは、OmDet-Turbo は現在の最先端の教師ありモデルとほぼ同等のパフォーマンス レベルを達成します。
さらに、ODinW と OVDEval で新しい最先端のベンチマークを確立し、それぞれ AP 30.1 と NMS-AP 26.86 を誇ります。
産業アプリケーションにおける OmDet-Turbo の実用性は、ベンチマーク データセットでの卓越したパフォーマンスと優れた推論速度によって強調され、リアルタイムの物体検出タスクにとって魅力的な選択肢として位置づけられています。
コード: \url{https://github.com/om-ai-lab/OmDet}

要約(オリジナル)

End-to-end transformer-based detectors (DETRs) have shown exceptional performance in both closed-set and open-vocabulary object detection (OVD) tasks through the integration of language modalities. However, their demanding computational requirements have hindered their practical application in real-time object detection (OD) scenarios. In this paper, we scrutinize the limitations of two leading models in the OVDEval benchmark, OmDet and Grounding-DINO, and introduce OmDet-Turbo. This novel transformer-based real-time OVD model features an innovative Efficient Fusion Head (EFH) module designed to alleviate the bottlenecks observed in OmDet and Grounding-DINO. Notably, OmDet-Turbo-Base achieves a 100.2 frames per second (FPS) with TensorRT and language cache techniques applied. Notably, in zero-shot scenarios on COCO and LVIS datasets, OmDet-Turbo achieves performance levels nearly on par with current state-of-the-art supervised models. Furthermore, it establishes new state-of-the-art benchmarks on ODinW and OVDEval, boasting an AP of 30.1 and an NMS-AP of 26.86, respectively. The practicality of OmDet-Turbo in industrial applications is underscored by its exceptional performance on benchmark datasets and superior inference speed, positioning it as a compelling choice for real-time object detection tasks. Code: \url{https://github.com/om-ai-lab/OmDet}

arxiv情報

著者 Tiancheng Zhao,Peng Liu,Xuan He,Lu Zhang,Kyusong Lee
発行日 2024-03-11 16:48:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク