YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection

要約

Yolo-MSと呼ばれる効率的でパフォーマンスのあるオブジェクト検出器をオブジェクト検出コミュニティに提供することを目指しています。
コアデザインは、さまざまなカーネルサイズの基本ブロックのマルチブランチの特徴と、異なるスケールでのオブジェクトの検出パフォーマンスにどのように影響するかについての一連の調査に基づいています。
結果は、リアルタイムオブジェクト検出器のマルチスケール機能表現を大幅に強化できる新しい戦略です。
作業の有効性を検証するために、Imagenetや事前に訓練されたウェイトなど、他の大規模なデータセットに依存することなく、MS CocoデータセットでYolo-MSを訓練します。
鐘とホイッスルがなければ、私たちのYolo-MSは、Yolo-V7、RTMDET、Yolo-V8を含む最近の最先端のリアルタイムオブジェクト検出器よりも優れています。
Yolo-MSのXSバージョンを例にとると、MS Cocoで42+%のAPスコアを達成できます。これは、同じモデルサイズのRTMDETよりも約2%高くなっています。
さらに、私たちの作業は、他のヨロモデルのプラグアンドプレイモジュールとしても機能します。
通常、我々の方法は、Yolov8-NのAPS、APL、およびAPを18%+、52%+、37%+から20%+、55%+、および40%+から大幅に進歩させ、パラメーターがさらに少ない
とマック。
コードモデルと訓練されたモデルは、https://github.com/fishandwasabi/yolo-msで公開されています。
また、https://github.com/nk-jittorcv/nk-yoloでジッタバージョンを提供しています。

要約(オリジナル)

We aim at providing the object detection community with an efficient and performant object detector, termed YOLO-MS. The core design is based on a series of investigations on how multi-branch features of the basic block and convolutions with different kernel sizes affect the detection performance of objects at different scales. The outcome is a new strategy that can significantly enhance multi-scale feature representations of real-time object detectors. To verify the effectiveness of our work, we train our YOLO-MS on the MS COCO dataset from scratch without relying on any other large-scale datasets, like ImageNet or pre-trained weights. Without bells and whistles, our YOLO-MS outperforms the recent state-of-the-art real-time object detectors, including YOLO-v7, RTMDet, and YOLO-v8. Taking the XS version of YOLO-MS as an example, it can achieve an AP score of 42+% on MS COCO, which is about 2% higher than RTMDet with the same model size. Furthermore, our work can also serve as a plug-and-play module for other YOLO models. Typically, our method significantly advances the APs, APl, and AP of YOLOv8-N from 18%+, 52%+, and 37%+ to 20%+, 55%+, and 40%+, respectively, with even fewer parameters and MACs. Code and trained models are publicly available at https://github.com/FishAndWasabi/YOLO-MS. We also provide the Jittor version at https://github.com/NK-JittorCV/nk-yolo.

arxiv情報

著者 Yuming Chen,Xinbin Yuan,Jiabao Wang,Ruiqi Wu,Xiang Li,Qibin Hou,Ming-Ming Cheng
発行日 2025-02-20 14:53:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク