要約
視覚機能を備えた埋め込みフライトデバイスは、幅広いアプリケーションに不可欠になりました。
空中画像検出では、多くの既存の方法が小さなターゲット検出の問題に部分的に対処していますが、課題は小さなターゲット検出と検出の精度と効率のバランスを最適化することに残っています。
これらの問題は、リアルタイムの空中画像検出の進歩に対する重要な障害です。
この論文では、検出の精度と効率の不均衡に対処するために、FBRT-Yoloという名前の航空画像検出用のリアルタイム検出器の新しいファミリーを提案します。
この方法は、航空画像の小さなターゲットのオブジェクト知覚を強化するように設計された、特徴補完マッピングモジュール(FCM)とマルチカーネル知覚ユニット(MKP)の2つの軽量モジュールで構成されています。
FCMは、ディープネットワークでの小さなターゲット情報の損失によって引き起こされる情報の不均衡の問題を軽減することに焦点を当てています。
ターゲットの空間的位置情報をより深くネットワークに統合し、より深いレイヤーのセマンティック情報とより適切に調整して、小さなターゲットのローカリゼーションを改善することを目的としています。
MKPを導入します。MKPは、さまざまなサイズのカーネルと畳み込みを活用して、さまざまなスケールのターゲット間の関係を高め、異なるスケールでのターゲットの認識を向上させます。
Visdrone、UAVDT、およびAI-Todを含む3つの主要な航空画像データセットに関する広範な実験結果は、FBRT-Yoloがパフォーマンスと速度の点でさまざまなリアルタイム検出器を上回ることを示しています。
要約(オリジナル)
Embedded flight devices with visual capabilities have become essential for a wide range of applications. In aerial image detection, while many existing methods have partially addressed the issue of small target detection, challenges remain in optimizing small target detection and balancing detection accuracy with efficiency. These issues are key obstacles to the advancement of real-time aerial image detection. In this paper, we propose a new family of real-time detectors for aerial image detection, named FBRT-YOLO, to address the imbalance between detection accuracy and efficiency. Our method comprises two lightweight modules: Feature Complementary Mapping Module (FCM) and Multi-Kernel Perception Unit(MKP), designed to enhance object perception for small targets in aerial images. FCM focuses on alleviating the problem of information imbalance caused by the loss of small target information in deep networks. It aims to integrate spatial positional information of targets more deeply into the network,better aligning with semantic information in the deeper layers to improve the localization of small targets. We introduce MKP, which leverages convolutions with kernels of different sizes to enhance the relationships between targets of various scales and improve the perception of targets at different scales. Extensive experimental results on three major aerial image datasets, including Visdrone, UAVDT, and AI-TOD,demonstrate that FBRT-YOLO outperforms various real-time detectors in terms of performance and speed.
arxiv情報
著者 | Yao Xiao,Tingfa Xu,Yu Xin,Jianan Li |
発行日 | 2025-04-29 11:53:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google