Efficient Feature Fusion for UAV Object Detection

要約

無人航空機(UAV)のリモートセンシング画像における物体検出は、不安定な画質、小さな物体サイズ、複雑な背景、環境によるオクルージョンなどのために、重大な課題を投げかけている。特に、小さな物体は画像の小さな部分を占めるため、その正確な検出は非常に困難である。既存のマルチスケール特徴フュージョン手法は、異なる解像度にまたがる特徴を集約することで、これらの課題にある程度対処している。しかし、特徴表現が不十分であったり、ネットワーク情報の流れが不均衡であったりすることが主な原因である。本論文では、特にUAV物体検出タスクのために設計された新しい特徴融合フレームワークを提案し、ローカライズの精度と分類性能の両方を向上させる。提案するフレームワークは、ハイブリッドなアップサンプリングモジュールとダウンサンプリングモジュールを統合し、異なるネットワーク深度からの特徴マップを任意の解像度に柔軟に調整することを可能にする。この設計により、層間接続とマルチスケール特徴の融合が容易になり、小さな物体の表現が改善される。我々のアプローチでは、ハイブリッドダウンサンプリングを活用してきめ細かな特徴表現を強化し、複雑な条件下でも小さなターゲットの空間的定位が向上する。同時に、アップサンプリングモジュールはグローバルな文脈情報を集約し、スケール間の特徴の一貫性を最適化し、乱雑なシーンにおける分類のロバスト性を向上させる。2つの公開UAVデータセットを用いた実験結果から、提案フレームワークの有効性を実証する。YOLO-v10モデルに統合された我々の手法は、ベースラインのYOLO-v10モデルと比較して、同じパラメータ数を維持しながら、平均精度(AP)で2%の改善を達成した。これらの結果は、正確で効率的なUAV物体検出のための我々のフレームワークの可能性を強調している。

要約(オリジナル)

Object detection in unmanned aerial vehicle (UAV) remote sensing images poses significant challenges due to unstable image quality, small object sizes, complex backgrounds, and environmental occlusions. Small objects, in particular, occupy small portions of images, making their accurate detection highly difficult. Existing multi-scale feature fusion methods address these challenges to some extent by aggregating features across different resolutions. However, they often fail to effectively balance the classification and localization performance for small objects, primarily due to insufficient feature representation and imbalanced network information flow. In this paper, we propose a novel feature fusion framework specifically designed for UAV object detection tasks to enhance both localization accuracy and classification performance. The proposed framework integrates hybrid upsampling and downsampling modules, enabling feature maps from different network depths to be flexibly adjusted to arbitrary resolutions. This design facilitates cross-layer connections and multi-scale feature fusion, ensuring improved representation of small objects. Our approach leverages hybrid downsampling to enhance fine-grained feature representation, improving spatial localization of small targets, even under complex conditions. Simultaneously, the upsampling module aggregates global contextual information, optimizing feature consistency across scales and enhancing classification robustness in cluttered scenes. Experimental results on two public UAV datasets demonstrate the effectiveness of the proposed framework. Integrated into the YOLO-v10 model, our method achieves a 2% improvement in average precision (AP) compared to the baseline YOLO-v10 model, while maintaining the same number of parameters. These results highlight the potential of our framework for accurate and efficient UAV object detection.

arxiv情報

著者 Xudong Wang,Yaxin Peng,Chaomin Shen
発行日 2025-02-03 07:04:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク