YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors

要約

YOLOv7は、5FPSから160FPSの範囲において、既知のオブジェクト検出器を速度、精度ともに上回り、GPU V100で30FPS以上のリアルタイムオブジェクト検出器の中で最も高い精度56.8%APを達成しました。YOLOv7-E6物体検出器(56 FPS V100、55.9% AP)は、変換器ベースの検出器SWIN-L Cascade-Mask R-CNN(9.2 FPS A100、53.9% AP)を上回る性能を持っています。9%)を速度で509%、精度で2%上回り、畳み込みベースの検出器ConvNeXt-XL Cascade-Mask R-CNN (8.6 FPS A100, 55.2% AP)を速度で551%、精度で0.7% AP上回り、同様にYOLOv7を上回りま す。YOLOR, YOLOX, Scaled-YOLOv4, YOLOv5, DETR, Deformable DETR, DINO-5scale-R50, ViT-Adapter-B, その他多くの物体検出器を速度、精度で凌駕しています。また、YOLOv7は、他のデータセットや事前に学習させた重みを使用せず、MS COCOデータセットのみを用いて一から学習させています。ソースコードは、https://github.com/WongKinYiu/yolov7 で公開されています。

要約(オリジナル)

YOLOv7 surpasses all known object detectors in both speed and accuracy in the range from 5 FPS to 160 FPS and has the highest accuracy 56.8% AP among all known real-time object detectors with 30 FPS or higher on GPU V100. YOLOv7-E6 object detector (56 FPS V100, 55.9% AP) outperforms both transformer-based detector SWIN-L Cascade-Mask R-CNN (9.2 FPS A100, 53.9% AP) by 509% in speed and 2% in accuracy, and convolutional-based detector ConvNeXt-XL Cascade-Mask R-CNN (8.6 FPS A100, 55.2% AP) by 551% in speed and 0.7% AP in accuracy, as well as YOLOv7 outperforms: YOLOR, YOLOX, Scaled-YOLOv4, YOLOv5, DETR, Deformable DETR, DINO-5scale-R50, ViT-Adapter-B and many other object detectors in speed and accuracy. Moreover, we train YOLOv7 only on MS COCO dataset from scratch without using any other datasets or pre-trained weights. Source code is released in https://github.com/WongKinYiu/yolov7.

arxiv情報

著者 Chien-Yao Wang,Alexey Bochkovskiy,Hong-Yuan Mark Liao
発行日 2022-07-06 14:01:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク