DETRs Beat YOLOs on Real-time Object Detection

要約

タイトル:DETRがリアルタイム物体検出においてYOLOを凌駕する

要約:
– DETRは注目すべきパフォーマンスを発揮するが、高い計算コストの問題があり、非最大抑制(NMS)などの後処理を必要とせず、その恩恵を十分に活用することができないため、実際の応用範囲が制限されている。
– 本論文では、現代のリアルタイム物体検出器におけるNMSの影響と、エンドツーエンドの速度ベンチマークを最初に分析する。
– NMSによる推論の遅延を回避するために、当論文は、リアルタイムのエンドツーエンド物体検出器であるReal-Time DEtection TRansformer(RT-DETR)を提案する。
– 具体的には、効率的なハイブリッドエンコーダを設計し、インタースケール相互作用とクロススケール融合を分離して、マルチスケールフィーチャを効率的に処理する。また、物体クエリの初期化を改善するためにIoU-awareクエリ選択を提案する。
– さらに、提案された検出器は、再学習の必要なしに異なるデコーダ層を使用して推論速度を柔軟に調整することができるため、実際のリアルタイム物体検出器の応用を容易にする。
– RT-DETR-LはCOCO val2017で53.0%のAPとT4 GPUで114 FPSを達成し、RT-DETR-Xは54.8%のAPと74 FPSを達成し、同じスケールのすべてのYOLO検出器を精度と速度の両面で凌駕する。
– さらに、RT-DETR-R50は53.1%のAPと108 FPSを達成し、DINO-Deformable-DETR-R50を約2.2% APで精度面で上回り、FPSでは約21倍の性能を発揮する。
– ソースコードと学習済みモデルはPaddleDetectionで入手可能。

要約(オリジナル)

Recently, end-to-end transformer-based detectors (DETRs) have achieved remarkable performance. However, the issue of the high computational cost of DETRs has not been effectively addressed, limiting their practical application and preventing them from fully exploiting the benefits of no post-processing, such as non-maximum suppression (NMS). In this paper, we first analyze the influence of NMS in modern real-time object detectors on inference speed, and establish an end-to-end speed benchmark. To avoid the inference delay caused by NMS, we propose a Real-Time DEtection TRansformer (RT-DETR), the first real-time end-to-end object detector to our best knowledge. Specifically, we design an efficient hybrid encoder to efficiently process multi-scale features by decoupling the intra-scale interaction and cross-scale fusion, and propose IoU-aware query selection to improve the initialization of object queries. In addition, our proposed detector supports flexibly adjustment of the inference speed by using different decoder layers without the need for retraining, which facilitates the practical application of real-time object detectors. Our RT-DETR-L achieves 53.0% AP on COCO val2017 and 114 FPS on T4 GPU, while RT-DETR-X achieves 54.8% AP and 74 FPS, outperforming all YOLO detectors of the same scale in both speed and accuracy. Furthermore, our RT-DETR-R50 achieves 53.1% AP and 108 FPS, outperforming DINO-Deformable-DETR-R50 by 2.2% AP in accuracy and by about 21 times in FPS. Source code and pretrained models will be available at PaddleDetection.

arxiv情報

著者 Wenyu Lv,Shangliang Xu,Yian Zhao,Guanzhong Wang,Jinman Wei,Cheng Cui,Yuning Du,Qingqing Dang,Yi Liu
発行日 2023-04-17 08:30:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク