YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection

要約

私たちは、YOLO-MS と呼ばれる効率的でパフォーマンスの高い物体検出器を物体検出コミュニティに提供することを目指しています。
コア設計は、さまざまなカーネル サイズの畳み込みがさまざまなスケールでのオブジェクトの検出パフォーマンスにどのような影響を与えるかについての一連の調査に基づいています。
その結果、リアルタイム物体検出器のマルチスケール特徴表現を強力に強化できる新しい戦略が生まれました。
戦略の有効性を検証するために、YOLO-MS と呼ばれるネットワーク アーキテクチャを構築します。
ImageNet などの大規模なデータセットや事前にトレーニングされた重みに依存することなく、MS COCO データセット上で YOLO-MS を最初からトレーニングします。
余分な機能を省き、同等の数のパラメータと FLOP を使用した場合、当社の YOLO-MS は、YOLO-v7 や RTMDet などの最新のリアルタイム オブジェクト検出器よりも優れたパフォーマンスを発揮します。
YOLO-MS の XS バージョンを例にとると、学習可能なパラメータが 450 万個、FLOP が 8.7G しかないため、MS COCO で 43% 以上の AP スコアを達成できます。これは、同じモデルの RTMDet よりも約 2% 以上高くなります。
サイズ。
さらに、私たちの作品は他のYOLOモデルのプラグアンドプレイモジュールとしても使用できます。
通常、私たちの方法では、さらに少ないパラメータと FLOP で YOLOv8 の AP が 37%+ から 40%+ に大幅に向上します。
コードは https://github.com/FishAndWasabi/YOLO-MS で入手できます。

要約(オリジナル)

We aim at providing the object detection community with an efficient and performant object detector, termed YOLO-MS. The core design is based on a series of investigations on how convolutions with different kernel sizes affect the detection performance of objects at different scales. The outcome is a new strategy that can strongly enhance multi-scale feature representations of real-time object detectors. To verify the effectiveness of our strategy, we build a network architecture, termed YOLO-MS. We train our YOLO-MS on the MS COCO dataset from scratch without relying on any other large-scale datasets, like ImageNet, or pre-trained weights. Without bells and whistles, our YOLO-MS outperforms the recent state-of-the-art real-time object detectors, including YOLO-v7 and RTMDet, when using a comparable number of parameters and FLOPs. Taking the XS version of YOLO-MS as an example, with only 4.5M learnable parameters and 8.7G FLOPs, it can achieve an AP score of 43%+ on MS COCO, which is about 2%+ higher than RTMDet with the same model size. Moreover, our work can also be used as a plug-and-play module for other YOLO models. Typically, our method significantly improves the AP of YOLOv8 from 37%+ to 40%+ with even fewer parameters and FLOPs. Code is available at https://github.com/FishAndWasabi/YOLO-MS.

arxiv情報

著者 Yuming Chen,Xinbin Yuan,Ruiqi Wu,Jiabao Wang,Qibin Hou,Ming-Ming Cheng
発行日 2023-08-10 10:12:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク