私たちは、強化された YOLOv10 アーキテクチャに基づいて構築され、後処理なしでリアルタイム アプリケーション向けに最適化された新しいエッジ ターゲット検出フレームワークである EDNet を提案します。
EDNet には、XSmall 検出ヘッドと Cross Concat 戦略が組み込まれており、さまざまな環境で小さなターゲットを検出するための機能融合とマルチスケール コンテキスト認識が向上します。
当社の独自の C2f-FCA ブロックは、Faster Context Attendance を採用して、計算の複雑さを軽減しながら特徴抽出を強化します。
WIoU 損失関数は、バウンディング ボックス回帰を改善するために採用されています。
Tiny から XL までの 7 つのモデル サイズを備えた EDNet は、さまざまな導入環境に対応し、ローカルでのリアルタイム推論を可能にし、データ プライバシーを確保します。
特に、EDNet は、大幅に少ないパラメータで mAP@50 で最大 5.6% のゲインを達成します。
iPhone 12 では、EDNet バリアントは 16 ~ 55 FPS の範囲の速度で動作し、困難なドローン画像におけるエッジベースの物体検出のためのスケーラブルで効率的なソリューションを提供します。
ソース コードと事前トレーニングされたモデルは、https://github.com/zsniko/EDNet から入手できます。
Detecting small targets in drone imagery is challenging due to low resolution, complex backgrounds, and dynamic scenes. We propose EDNet, a novel edge-target detection framework built on an enhanced YOLOv10 architecture, optimized for real-time applications without post-processing. EDNet incorporates an XSmall detection head and a Cross Concat strategy to improve feature fusion and multi-scale context awareness for detecting tiny targets in diverse environments. Our unique C2f-FCA block employs Faster Context Attention to enhance feature extraction while reducing computational complexity. The WIoU loss function is employed for improved bounding box regression. With seven model sizes ranging from Tiny to XL, EDNet accommodates various deployment environments, enabling local real-time inference and ensuring data privacy. Notably, EDNet achieves up to a 5.6% gain in mAP@50 with significantly fewer parameters. On an iPhone 12, EDNet variants operate at speeds ranging from 16 to 55 FPS, providing a scalable and efficient solution for edge-based object detection in challenging drone imagery. The source code and pre-trained models are available at: https://github.com/zsniko/EDNet.
著者 | Zhifan Song,Yuan Zhang,Abd Al Rahman M. Abu Ebayyeh |
発行日 | 2025-01-10 11:37:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google