A lightweight model FDM-YOLO for small target improvement based on YOLOv8

要約

小さなターゲットは、ピクセルのカウントが低い、複雑な背景、さまざまな撮影角度があるため、特に検出が困難です。これにより、モデルが効果的な機能を抽出するのが難しくなります。
一部の大規模なモデルは高い精度を提供しますが、その長い推論時間により、エッジデバイスでのリアルタイムの展開には適していません。
一方、低い計算能力のために設計されたモデルは、しばしば検出の精度が低いことに苦しんでいます。
このペーパーでは、小さなターゲット検出に焦点を当て、低い計算制約の下でオブジェクト検出の方法を調査します。
Yolov8モデルに基づいて、FDM-Yoloと呼ばれる新しいネットワークアーキテクチャを提案します。
私たちの研究には、次の重要な貢献が含まれています。FDM-Yoloは、Yolov8検出ヘッドの出力を分析して紹介します。
高解像度層を追加し、大きなターゲット検出レイヤーを削除して、小さなターゲットをよりよく処理します。
PCONVに基づいて、モデルのPANモジュールに統合されたFast-C2Fと呼ばれる軽量ネットワーク構造を提案します。
モデルの軽量化によって引き起こされる精度の損失を軽減するために、動的アップサンプリング(Dysample)と軽量EMA注意メカニズムを採用します。FDM-YoloモデルはVisdroneデータセットで検証され、パラメーターカウントが38%減少し、MAP0.5スコアを38.4%から42.5%から改善しました。
これは、エッジデバイスの展開の精度と効率のバランスをとる際のアプローチの有効性を示しています。

要約(オリジナル)

Small targets are particularly difficult to detect due to their low pixel count, complex backgrounds, and varying shooting angles, which make it hard for models to extract effective features. While some large-scale models offer high accuracy, their long inference times make them unsuitable for real-time deployment on edge devices. On the other hand, models designed for low computational power often suffer from poor detection accuracy. This paper focuses on small target detection and explores methods for object detection under low computational constraints. Building on the YOLOv8 model, we propose a new network architecture called FDM-YOLO. Our research includes the following key contributions: We introduce FDM-YOLO by analyzing the output of the YOLOv8 detection head. We add a highresolution layer and remove the large target detection layer to better handle small targets. Based on PConv, we propose a lightweight network structure called Fast-C2f, which is integrated into the PAN module of the model. To mitigate the accuracy loss caused by model lightweighting, we employ dynamic upsampling (Dysample) and a lightweight EMA attention mechanism.The FDM-YOLO model was validated on the Visdrone dataset, achieving a 38% reduction in parameter count and improving the Map0.5 score from 38.4% to 42.5%, all while maintaining nearly the same inference speed. This demonstrates the effectiveness of our approach in balancing accuracy and efficiency for edge device deployment.

arxiv情報

著者 Xuerui Zhang
発行日 2025-03-06 14:06:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク